メタ、「コードのように考える」コード世界モデルを発表 — ソフトウェア開発の未来を再構築する可能性

Meta、「コードのように思考する」AIを発表――ソフトウェア開発の未来を再構築

オープンソースシステムがテキストを読むだけでなく、コード実行をシミュレートする方法を学習

MetaのFAIRチームは、LLMのようにコードを静的なテキストとして読み込むだけでなく、実際にその実行方法を「想像」できる、新たな種類のAIモデルを発表しました。Code World Model（CWM）と呼ばれるこのモデルは、プログラムが動作する際の精神的なシミュレーションのように、コードの実行状況を1行ずつ、段階的に内部で描き出します。

https://scontent-dub4-1.xx.fbcdn.net/v/t39.2365-6/553592426_661450129912484_4072750821656455102_n.pdf?_nc_cat=103&ccb=1-7&_nc_sid=3c67a6&_nc_ohc=iRs3sgpeI1MQ7kNvwEJ-EV&_nc_oc=AdlKtE8G8Xq6OfMdmTyYZ_eGGa84CZHX_LEXB-Bi66JZ_95Qk1Uz_EnziY0cSf5UPI&_nc_zt=14&_nc_ht=scontent-dub4-1.xx&_nc_gid=2EOzjrGensjPFAambgFe8w&oh=00_AfbM_Fi6W0mwnf8paOQkEtLzL39l-heH_gJcHvRO95mvPQ&oe=68DA85B5

この視点の転換は、目を見張るような結果を生み出しました。320億のパラメータを搭載するCWMは、ソフトウェア研究における最も困難なベンチマークの一つであるSWE-bench Verifiedテストで新たな基準を打ち立てました。実際のソフトウェアバグを65.8%の成功率で解決し、OpenAIやAnthropicといった独自の強力なモデルと直接競合する一方で、オープンソースであるという特徴も持ち合わせています。

「これは、AIがより優れたコードを吐き出すことだけが目的ではありません」とあるLLM研究者は説明します。「マシンに、ソフトウェアが何をするのかを、その見た目だけでなく真に理解させることなのです。さらに、これはLeCunのワールドモデルの優れた専門化でもあります。」

LLMとLeCunのワールドモデルの比較

特徴	LLM (GPT-4など)	LeCunのワールドモデル
学習データ	テキスト (数兆トークン)	マルチモーダル感覚データ (視覚、聴覚、環境)
中心的目標	次のトークン予測	世界の将来の状態を予測
基盤	間接的 (人間によるテキスト経由)	直接的 (知覚-行動ループ経由)
推論	相関駆動型、統計的	因果的、モデルベース
記憶	限られたコンテキストウィンドウ	長期エピソード記憶 + 意味記憶
計画	弱い、外部スキャフォールディングが必要	内部シミュレーションによる固有の計画
効率	データ依存型	人間のような効率を目指す
応用分野	チャット、コーディング、テキストタスク	ロボティクス、自律型エージェント、真のAIアシスタント

画期的なトレーニングアプローチ

CWMの強みは、そのトレーニング方法に由来します。従来のLLMは大量のソースコードを取り込みますが、そのコードが実際にどのように実行されるかを見ることはありませんでした。Metaは「中間トレーニング」フェーズを導入し、実行そのものを捉えることでこの常識を覆しました。

あるデータセットには、詳細なPythonの実行トレースが含まれていました。これは、プログラムの内部状態が各コード行でどのように変化するかの詳細な記録です。もう一つのデータセットは「エージェント的軌跡」と呼ばれ、AIエージェントとライブコンピューティング環境との間の数百万に及ぶ実際のインタラクションが記録されています。エージェントはファイルを操作し、シェルコマンドを実行し、その結果を観察しました。これは、まるでデジタルな見習いがベテラン開発者に付き添うかのようでした。

この動的なデータでトレーニングすることにより、モデルは構文だけでなく、コードの振る舞い、つまりデジタル世界の物理学のようなものを吸収しました。この基盤により、変更が加えられる前にその結果を予測する能力、すなわちデバッグにおける強力な「スーパーパワー」を獲得したのです。

ベンチマークを突破する

CWMの能力は、AIモデルがGitHubプロジェクトの実際のバグを修正しようとするSWE-bench Verifiedテストで最も輝きを放ちます。成功するためには、システムはコードの断片だけでなく、ファイルや依存関係を横断する全体像を把握し、厳密なテストスイートを通過する修正を記述する必要があります。

このテストでCWMは、他のモデルに追随するだけでなく、規模の大きい他のオープンソースモデルをも凌駕しました。研究者が「ニューラルデバッグ」と呼ぶ、コードを実行することなく精神的にコードをたどり、問題を指摘する驚異的な能力を示しました。試験では、実行がどのように展開するかを96%以上の精度で予測しました。

そして、そのために汎用的なスキルを犠牲にしたわけではありません。このモデルは、依然として従来のプログラミングタスクや数学的推論において強力な性能を発揮しており、より深い理解が全体の能力を狭めるのではなく、強化することを示しています。

期待と懸念

当然のことながら、AIコミュニティは大きな関心を示しました。多くの人が、Metaがモデルだけでなく、その進化の各段階を示すトレーニングチェックポイントも公開したことを称賛しました。これは、他のテック大手における閉鎖性が増す傾向とは対照的で歓迎すべき動きです。

しかし、熱狂には注意点も伴います。研究者たちは、既存のコード生成システムとの独立した直接比較や、実際の開発環境での実地試験を求めています。また、現実的な問題として、320億パラメータというCWMのサイズは、かなりの計算能力を要求します。日常的に使用する開発者にとっては、より軽量なバージョンが理論を実践に変える鍵となるでしょう。

コード補完以上のもの

このアプローチがAI全体に示唆するものは、より大きな物語かもしれません。コードの実行ダイナミクスをトレーニングすることがこれほど効果的であれば、結果が見た目よりも重要な他の領域にも応用できないでしょうか？

CWMが環境を内部的にモデル化する能力は、将来のAIエージェントが多段階の操作を計画し実行できる可能性を示唆しています。ハッカーよりも早く脆弱性を見つける自動テスターや、難なくシステムをデバッグするデジタルアシスタントを想像してみてください。

モデルと手法をオープンソース化することで、Metaはコラボレーションに賭けています。この動きは、競合他社をより透明な方向へと促し、業界全体の進歩を加速させる可能性があります。

今後の展望

現時点では、CWMは実践でその価値を証明するのを待つ技術的な勝利です。CTOL.digitalのエンジニアリングチームが述べたように、「これは素晴らしい研究成果であり、しっかりと記述されており、将来性があるが、私たちはそれをテストする必要がある。」その真のテストは、実際の開発者のためにバグを修正し、ワークフローを合理化する中で、実社会で訪れるでしょう。

このタイミングは示唆に富んでいます。AIの世界が秘密主義とオープン性との間で揺れる中、Metaの決断は業界全体の期待を変化させる可能性があります。もしコード実行を理解するマシンが常識となれば、私たちはソフトウェア開発の新たな時代に突入するかもしれません。それは、AIがパターンを単にコピーするだけでなく、それについて推論する時代です。

この構文から意味論への飛躍が真の革命を引き起こすかどうかは、CWMがプレッシャーの下でどれだけ優れた性能を発揮するかにかかっています。業界は注意深く見守っています。