AI推論論争:画期的な研究がAppleの主張する大規模モデルの「認知崩壊」に異議を唱える
科学的な反論がAIの能力に関する理解を再構築し、Apple Researchの言語モデル推論に対する懐疑的な見方を覆す
今週発表された鋭い科学的反論において、Anthropicの研究者たちは、人工知能システムの根源的な限界に関する見解に異議を唱えた。 「思考の幻想の幻想」と題された論文は、Apple Researchがその影響力のある研究「思考の幻想:問題の複雑性のレンズを通して推論モデルの強みと限界を理解する」で主張した内容を解体している。
「Appleは生成AIの競争に負けているのか?」
Alex LawsenとClaude Opus両氏によって執筆されたこの反論は、AI研究界で通説となっていたAppleの実験を綿密に分析している。彼らの発見は、AIの推論能力における認識された限界が、実際の認知境界というよりも、むしろ欠陥のある評価方法の産物であり、幻想に過ぎない可能性を示唆している。
Apple Researchによる大規模推論モデル(LRM)への批判
攻撃点/限界 | 簡潔な説明 | 論文からの主要な証拠 |
---|---|---|
1. 完全な精度崩壊 | 特定の複雑性閾値を超えると精度がゼロになり、推論を一般化する能力の欠如が明らかになる。 | ハノイの塔などの全てのパズルにおいて、複雑性が増すと精度が0%に崩壊する。 |
2. 直感に反する努力のスケールダウン | モデルはより難しい問題で「諦め」、複雑性が臨界点を超えると「思考トークン」の消費が減少する。これはスケーリングの限界を示唆する。 | 十分なトークン予算があるにもかかわらず、「思考トークン」の使用量はピークに達した後、より難しい問題では急激に減少する。 |
3. 正確な計算と一貫性の欠如 | 正確な段階的な実行に苦戦し、異なるパズルタイプ間で一貫性のないパフォーマンスを示す。 | 解法アルゴリズムを提供しても失敗を防げない。 極めて一貫性がない:ハノイの塔では100以上の正しい手数を実行するのに対し、より単純な川渡りパズルでは5未満。 |
4. 非効率的で欠陥のある推論 | 内部の「思考」の追跡は非効率なプロセスを明らかにする:単純な問題を「考えすぎる」一方で、複雑な問題の正しい経路を見つけられない。 | 単純な問題では、正しい答えが早く現れるが、その後に誤った探索が続く。複雑な問題では、正しい答えが遅れるか、存在しない。 |
5. 低複雑性タスクでの性能不足 | 単純なタスクでは、「思考型」モデル(LRM)は、標準的なLLMよりも劣り、非効率であることが多い。思考プロセスが不利に働く。 | 低複雑性の領域では、標準的な非思考型モデルがLRM対応モデルを常に上回る性能を発揮する。 |
6. 欠陥のあるベンチマーク評価 | 標準的な数学ベンチマーク(例:AIME)における見かけ上の推論能力の向上は疑わしく、データ汚染による可能性が高い。 | AIME25での性能がAIME24よりも悪く、人間のパフォーマンスとは逆であり、古いベンチマークデータに汚染があることを示唆している。 |
Anthropic Researchによる「思考の幻想」への反論
元の攻撃点 | 簡潔な反論 | 主要な証拠 |
---|---|---|
1. 完全な精度崩壊 | 推論の崩壊ではなく、物理的なトークン制限。網羅的な出力がモデルのトークン予算を超えたときに、正確に失敗が発生する。 | 4章: ハノイの塔の「崩壊」点がモデルのトークン制限と一致することを計算が示している。モデルも出力を切り詰めていることを明示している。 |
2. 直感に反する努力のスケールダウン | トークンの減少は、出力制限に達したことの産物であり、モデルが「諦めた」兆候ではない。 | 4章: トークン制限の直接的な結果であり、生成が単に停止する。 |
3. 正確な計算と一貫性の欠如 | 解の長さと計算の難易度を混同する欠陥のある複雑性指標によって引き起こされた。 | 6章: ハノイの塔はアルゴリズム的には単純(長い解)だが、川渡りパズルはNP困難(短い解)であり、性能差を説明している。 |
4. 非効率的で欠陥のある推論 | 推論は健全である;出力形式が制約である。コンパクトな表現を求められた場合、モデルはアルゴリズムを理解していることを証明する。 | 5章: モデルは、網羅的な移動リストの代わりに、ハノイの塔を解くための関数を生成することで非常に高い精度を達成している。 |
5. 低複雑性タスクでの性能不足 | (反論が高複雑性における失敗の主張を解体することに焦点を当てているため、直接は言及されていない。) | - |
6. 欠陥のあるベンチマーク評価 | 元の評価には、数学的に解けないパズルが含まれるという致命的な欠陥があった。 | 3章: Nが6以上の川渡りパズルは解けないことが証明されている。モデルは不可能な問題を解けなかったことで誤って評価を下げられた。 |
モデルが失敗していたのではなく、単に容量不足だった時
この科学的論争の核心には、欺瞞的に単純な発見がある。Appleの研究者がハノイの塔のような複雑なパズルを解くのにAIモデルが「失敗した」と報告した多くのケースで、実際には推論に失敗していたのではなく、文字通り回答を書き出すスペースが不足していたのだ。
「Appleのチームが推論の限界と解釈したものは、実際には出力長に関する物理的な制約だった」と、両論文に精通したAI評価の専門家は説明した。「それは、人間が最後まで話す前に疲れてしまうから、100万まで数えられないと主張するようなものです。」
反論は、指数関数的に長い解を必要とするパズル、例えば15枚のディスクを持つハノイの塔(32,767手もの正確な手順が必要)において、モデルが最大トークン出力制限に達していたことを示している。多くの場合、AIシステムは長さの制約のために解を切り詰めていることを明示的に述べていた。
不可能なパズルの罠
おそらく最も決定的なのは、調査の結果、Appleの研究でAIの推論の失敗を「証明」するために使われた川渡り問題の約23%が、数学的に解けないものであったという事実が明らかになったことだ。これは元の研究者が見落としていたようである。
「6人以上の登場人物と3人乗りのボートを持ついくつかの川渡り問題は、解けないことが証明されている」と論文