Anthropicの新研究、AppleのAI推論限界に関する研究に挑戦

著者
Lang Wang
10 分読み

AI推論論争:画期的な研究がAppleの主張する大規模モデルの「認知崩壊」に異議を唱える

科学的な反論がAIの能力に関する理解を再構築し、Apple Researchの言語モデル推論に対する懐疑的な見方を覆す

今週発表された鋭い科学的反論において、Anthropicの研究者たちは、人工知能システムの根源的な限界に関する見解に異議を唱えた。 「思考の幻想の幻想」と題された論文は、Apple Researchがその影響力のある研究「思考の幻想:問題の複雑性のレンズを通して推論モデルの強みと限界を理解する」で主張した内容を解体している。

「Appleは生成AIの競争に負けているのか?」

Alex LawsenとClaude Opus両氏によって執筆されたこの反論は、AI研究界で通説となっていたAppleの実験を綿密に分析している。彼らの発見は、AIの推論能力における認識された限界が、実際の認知境界というよりも、むしろ欠陥のある評価方法の産物であり、幻想に過ぎない可能性を示唆している。

Apple Researchによる大規模推論モデル(LRM)への批判

攻撃点/限界簡潔な説明論文からの主要な証拠
1. 完全な精度崩壊特定の複雑性閾値を超えると精度がゼロになり、推論を一般化する能力の欠如が明らかになる。ハノイの塔などの全てのパズルにおいて、複雑性が増すと精度が0%に崩壊する。
2. 直感に反する努力のスケールダウンモデルはより難しい問題で「諦め」、複雑性が臨界点を超えると「思考トークン」の消費が減少する。これはスケーリングの限界を示唆する。十分なトークン予算があるにもかかわらず、「思考トークン」の使用量はピークに達した後、より難しい問題では急激に減少する。
3. 正確な計算と一貫性の欠如正確な段階的な実行に苦戦し、異なるパズルタイプ間で一貫性のないパフォーマンスを示す。解法アルゴリズムを提供しても失敗を防げない。
極めて一貫性がない:ハノイの塔では100以上の正しい手数を実行するのに対し、より単純な川渡りパズルでは5未満。
4. 非効率的で欠陥のある推論内部の「思考」の追跡は非効率なプロセスを明らかにする:単純な問題を「考えすぎる」一方で、複雑な問題の正しい経路を見つけられない。単純な問題では、正しい答えが早く現れるが、その後に誤った探索が続く。複雑な問題では、正しい答えが遅れるか、存在しない。
5. 低複雑性タスクでの性能不足単純なタスクでは、「思考型」モデル(LRM)は、標準的なLLMよりも劣り、非効率であることが多い。思考プロセスが不利に働く。低複雑性の領域では、標準的な非思考型モデルがLRM対応モデルを常に上回る性能を発揮する。
6. 欠陥のあるベンチマーク評価標準的な数学ベンチマーク(例:AIME)における見かけ上の推論能力の向上は疑わしく、データ汚染による可能性が高い。AIME25での性能がAIME24よりも悪く、人間のパフォーマンスとは逆であり、古いベンチマークデータに汚染があることを示唆している。

Anthropic Researchによる「思考の幻想」への反論

元の攻撃点簡潔な反論主要な証拠
1. 完全な精度崩壊推論の崩壊ではなく、物理的なトークン制限。網羅的な出力がモデルのトークン予算を超えたときに、正確に失敗が発生する。4章: ハノイの塔の「崩壊」点がモデルのトークン制限と一致することを計算が示している。モデルも出力を切り詰めていることを明示している。
2. 直感に反する努力のスケールダウントークンの減少は、出力制限に達したことの産物であり、モデルが「諦めた」兆候ではない。4章: トークン制限の直接的な結果であり、生成が単に停止する。
3. 正確な計算と一貫性の欠如解の長さと計算の難易度を混同する欠陥のある複雑性指標によって引き起こされた。6章: ハノイの塔はアルゴリズム的には単純(長い解)だが、川渡りパズルはNP困難(短い解)であり、性能差を説明している。
4. 非効率的で欠陥のある推論推論は健全である;出力形式が制約である。コンパクトな表現を求められた場合、モデルはアルゴリズムを理解していることを証明する。5章: モデルは、網羅的な移動リストの代わりに、ハノイの塔を解くための関数を生成することで非常に高い精度を達成している。
5. 低複雑性タスクでの性能不足(反論が高複雑性における失敗の主張を解体することに焦点を当てているため、直接は言及されていない。)-
6. 欠陥のあるベンチマーク評価元の評価には、数学的に解けないパズルが含まれるという致命的な欠陥があった。3章: Nが6以上の川渡りパズルは解けないことが証明されている。モデルは不可能な問題を解けなかったことで誤って評価を下げられた。

モデルが失敗していたのではなく、単に容量不足だった時

この科学的論争の核心には、欺瞞的に単純な発見がある。Appleの研究者がハノイの塔のような複雑なパズルを解くのにAIモデルが「失敗した」と報告した多くのケースで、実際には推論に失敗していたのではなく、文字通り回答を書き出すスペースが不足していたのだ。

「Appleのチームが推論の限界と解釈したものは、実際には出力長に関する物理的な制約だった」と、両論文に精通したAI評価の専門家は説明した。「それは、人間が最後まで話す前に疲れてしまうから、100万まで数えられないと主張するようなものです。」

反論は、指数関数的に長い解を必要とするパズル、例えば15枚のディスクを持つハノイの塔(32,767手もの正確な手順が必要)において、モデルが最大トークン出力制限に達していたことを示している。多くの場合、AIシステムは長さの制約のために解を切り詰めていることを明示的に述べていた。

不可能なパズルの罠

おそらく最も決定的なのは、調査の結果、Appleの研究でAIの推論の失敗を「証明」するために使われた川渡り問題の約23%が、数学的に解けないものであったという事実が明らかになったことだ。これは元の研究者が見落としていたようである。

「6人以上の登場人物と3人乗りのボートを持ついくつかの川渡り問題は、解けないことが証明されている」と論文

あなたも好きかもしれません

この記事は、 ニュース投稿のルールおよびガイドラインに基づき、ユーザーによって投稿されました。カバー写真は説明目的でコンピューターにより生成されたアートであり、事実を示すものではありません。この記事が著作権を侵害していると思われる場合は、 どうぞご遠慮なく弊社まで電子メールでご報告ください。皆様のご協力とご理解に感謝申し上げます。これにより、法令を遵守し、尊重あるコミュニティを維持することが可能となります。

ニュースレターに登録する

最新のエンタープライズビジネスとテクノロジー情報をお届けします。さらに、新しいサービスや提供物をいち早く独占的にチェックできます。

当社のウェブサイトでは、特定の機能を有効にし、より関連性の高い情報を提供し、お客様のウェブサイト上の体験を最適化するために、Cookieを使用しています。詳細については、 プライバシーポリシー および 利用規約 で確認できます。必須情報は 法的通知