スポットライトの裏側:幻となったベヒモス
4月5日に起きた祝賀ツイート、技術ライブストリーム、YouTube解説の熱狂的な反響の中で、一つの真実が静かに影に隠れていました。それは、Metaの最も重要な大規模言語モデルであるLlama 4 Behemoth(ベヒモス)がまだ登場していないということです。世界がLlama 4 Scout(スカウト)とMaverick(マーベリック)のリリースを歓迎する一方で、Metaの旗艦モデルであり、OpenAI、Anthropic、Googleとの競争激化に対するMetaの答えとなるはずのBehemothは、まだトレーニング中で、スケジュールから遅れている可能性があります。
Metaは「マルチモーダルAIの新時代の幕開け」を宣言しましたが、洗練されたエンジニアリングと大胆な主張の裏で、内部関係者は高まるプレッシャーを、つまり、競合他社が次々とオープンウェイトモデルを準備する中で、先を行くための必死の競争を語っています。
「特に、私たちの遅延について報道された後では、何かを示す必要がありました。競合他社の新リリースが私たちの新しいモデルを打ち負かす前に、とにかく何かを」とMetaのGen AIエンジニアは本日、私たちに語りました。
これがLlama 4の知られざる物語です。
リリースされたモデル:ScoutとMaverick
形式上、Llama 4 ScoutとLlama 4 Maverickのリリースは、オープンソースコミュニティにとって画期的な出来事です。これらのモデルは、混合エキスパートアーキテクチャに基づいて構築されており、推論効率、コンテキスト長、およびマルチモーダル機能のフロンティアを押し広げています。Scoutは、16のエキスパートを持つアジャイルな170億アクティブパラメータモデルであり、前例のない1000万トークンのコンテキストウィンドウを誇っています。これは、今日リリースされているどのモデルにも匹敵しません。シングルH100 GPU上で動作し、小規模な研究者、開発者、およびプロダクトチームをターゲットにしています。
対照的に、Maverickは主力モデルです。アクティブサイズは同じですが、128のエキスパートと4000億の総パラメータを搭載しています。DeepSeek V3、Gemini 2.0 Flash、およびGPT-4oと直接競合し、より低い推論コストで同様のパフォーマンスを提供します。
「これは、現在市場で最高のパフォーマンス対コスト比です」とあるAIベンチマークアナリストは述べています。「Llama 4 Maverickで構築している場合、OpenAIレベルの推論を得られるだけでなく、GPUサイクルも大幅に節約できます。」
初期の指標はそれを裏付けています。MaverickはすでにLM Arenaで1417点を獲得しており(CTOLエディターKen:LM Arenaはあまり信用していませんが、今のところ唯一利用可能です)、トップティアのブラケットに入っていますが、投票数が限られているため、信頼区間は広くなっています。
しかし、これらのモデルは印象的ではありますが、Metaが当初計画していた注目の的ではありませんでした。
リリースの幻影:Behemothはまだ登場せず
ScoutとMaverickの華々しさの裏で、Llama 4 Behemothは目立って欠席しています。2880億のアクティブパラメータ、16のエキスパート、および2兆パラメータに迫る総サイズを備えたBehemothは、単にGPT-o3 mini、Claude Sonnet 3.7、およびGemini 2.5 Proに匹敵するだけでなく、技術ベンチマークでそれらを上回るように設計されています。社内では、Meta初の「フロンティアモデル」、つまりLLMリーダーボードを変える生粋の知能を備えたモデルと見なされています。
しかし、Behemothのトレーニングは進行中です。そのリリース日は依然として曖昧です。そして、その沈黙は多くを物語っています。
「トレーニングプロセスは多くのリソースを消費しています」とMetaのエンジニアは私たちに語りました。「スムーズではありません。個人的には、それがトップ3、つまりGemini 2.5 Pro、Claude 3.7、O3 Miniに対してどこに着地するか確信が持てません。」
MetaはMATH-500やGPQA DiamondのようなSTEM分野でのベンチマークでの勝利をほのめかしていますが、一般的なパフォーマンスや会話型パフォーマンスについては特に沈黙しており、これは多くのAIアナリストにとって危険信号です。
あるAIインフラストラクチャ企業のシニア機械学習エンジニアは、「リソースのボトルネックと、このパラメータ数でのRLパイプラインの不安定なスケーリング」が遅延の原因である可能性があると推測しました。他の人は戦略を指摘しています。「Metaは、最高の成果を保証できるまでBehemothをリリースするリスクを冒したくなかったのです。このモデルにはあまりにも多くのものがかかっています。」
それには、名声だけでなく、より深い存在をかけた賭けも含まれます。Llama 4 BehemothがClaudeやGeminiを明確に上回ることができなければ、Metaは、自らが定義を支援したオープンソースの領域でさえ、AIの覇権争いにおける地位を失う危険があります。
MaverickとScout:エレガントなエンジニアリング、戦術的な戦略
MaverickとScoutが提供するのは、ミドルウェイトセグメントで最高のイノベーションです。Metaが選択したMoEアーキテクチャは、調整や展開が複雑すぎると長い間敬遠されてきましたが、今やMetaの切り札となっています。
Scoutでは、各トークンは16のエキスパートのうちの1つと共有レイヤーのみにルーティングされるため、品質を犠牲にすることなく計算効率が向上します。その1000万トークンのコンテキスト長は、単なる技術的な驚異ではなく、パラダイムシフトとなる可能性があります。
「コードリポジトリ全体の要約、複数ドキュメントの推論、またはエージェントの永続的なメモリについて話しているのです」とある研究者は述べています。「それは機能的な革命です。」
一方、Maverickは、その効率をワンホストレベルにもたらし、4000億の総パラメータ、混合エキスパートルーティング、および強化されたマルチモーダル流暢さを誇っています。テキスト+画像入力をサポートし、ChartQAやLiveCodeBenchのような視覚QAおよびコーディングベンチマークで優位に立っています。
それらのトレーニングプロセスも同様に厳格でした。プログレッシブなカリキュラムベースのポストトレーニングパイプラインを使用して、Metaは「簡単なデータ」を削除し、内部判断モデルを使用してプロンプトをフィルタリングし、ハードのみのプロンプト選択による強化学習をループしました。これは、パフォーマンスを向上させるための残酷ですが効果的なレシピです。
ScoutとMaverickはどちらもBehemothから蒸留されました。Metaはそれを「コディスティレーション」と呼んでいます。しかし、その教師モデルの完全な意味合いはまだ不明です。
主要モデルに対する初期テストの失敗:Llama 4 Maverick vs. Claude 3.7 Sonnet
初期の直接対決ロジックテストでは、MetaのLlama 4 Maverickは、Claude 3.7 Sonnetのパフォーマンスに匹敵しませんでした。両方のモデルは、ファンタジー要素と15の複雑な手がかりを含む、カスタムの4×7マトリックス推論パズルを解くように指示されました。こちらでテストをご確認ください。Claudeはタスクを迅速に完了し、最初から一貫性のある検証可能なソリューションを提供しましたが、Maverickは複数回の継続が必要であり、繰り返し検証チェックに失敗しました。最初はキャラクターに重複するアーティファクトを割り当て、後でそのロジックに「致命的な矛盾」があることを認めました。数回の修正パスの後でも、手がかりを見逃し続け、新しい矛盾を導入しました。テスターは、Maverickの絵文字や略語を含むインフォーマルなスタイルが、その推論をさらに混乱させたと指摘しました。これは1つのテストに過ぎませんが、構造化された問題解決におけるMaverickの信頼性について、特にMetaがまだその旗艦モデルであるBehemothをリリースしていない場合に、初期の懸念を引き起こします。繰り返しますが、Metaはトップモデルに対抗するために、確固たるBehemothモデルをリリースする必要があります。
オープンソース(ただし条件付き)
Metaは長い間、LlamaをオープンソースAIの先駆けとして位置付けてきました。しかし、Llama 4のライセンスは批判を浴びています。「7億MAU」条項は、月間アクティブユーザーが7億人を超えるエンティティによる使用を禁止しており、事実上、テクノロジー大手による自由な採用を阻止しています。
「それは矛盾です」とあるAI擁護者は述べています。「競合他社にとって罠が仕掛けられている場合、それをオープンと呼ぶことはできません。」
さらに悪いことに、配布が制限されています。ダウンロードするには、ユーザーはフォームに記入し、時間制限付きのリンクを受け取る必要があり、48時間以内に5回のダウンロードが許可されています。
これらの人為的な制約は、多くの開発者を苛立たせています。Scoutに早期アクセスできたあるコミュニティビルダーの言葉を借りれば、
「私が使用した中で最高の小型モデルです。しかし、ロールアウトは?オープンソースモデルをダウンロードするというより、パスポートを申請するような気分でした。」
賭け金:2025年のAI戦略
Behemothの不在はなぜ重要なのでしょうか?
なぜなら、私たちは今、オープンウェイトAI戦争の時代に突入しており、レイテンシ、トークンあたりのコスト、およびハードな推論タスクでのパフォーマンスが、製品の実現可能性だけでなく、国家戦略も定義するからです。
MetaのScoutとMaverickモデルは、ほとんどの指標でGemini 2.0 Flashを打ち負かしています。しかし、Claude 3.7 SonnetやGemini 2.5 Proには勝てません。Behemothだけがそれを実現できる可能性があります。
そして、競争相手は待ってくれません。
DeepSeekは、5月上旬までに完全なコード推論機能を備えた次世代のオープンウェイトモデルをリリースすると噂されています。OpenAIは、最初のオープンウェイトモデルを準備していると伝えられています。
Metaがこれらのリリース前にBehemothを投入できなかった場合、Llama 4の熱狂は、市場での優位性を確立する前に消散する可能性があります。
次のステップ:Behemoth、LlamaCon、そして真のフロンティア
Metaは4月29日に賭けをしています。この日、MetaはLlamaConを開催し、より技術的な詳細と、場合によっては、Behemothのリリース時期を発表すると約束しています。業界ウォッチャーは、これが同社のAIロードマップにとって決定的な瞬間になる可能性があると述べています。
それまでは、ScoutとMaverickがあります。技術的には素晴らしいですが、公開されており、戦略的には一時的なものです。
あるアナリストが述べたように、
「Llama 4はMetaの最初の動きですが、最終的な目標はBehemothにかかっています。」
AIの未来は、公の場で構築されているだけではありません。32K GPUで、舞台裏で、時間との戦いで、すべての時間、すべてのトークンでトレーニングされています。
まとめ:
- Llama 4 Scout:シングルH100 GPUに収まる170億パラメータ、1000万コンテキストウィンドウモデル。コンパクトなマルチモーダルモデルとしては最高です。
- Llama 4 Maverick:より大きく、4000億パラメータのモデルで、128のエキスパートがいます。印象的なコストパフォーマンスで、ほとんどの指標でGemini 2.0 Flashを上回ります。
- Llama 4 Behemoth:まだトレーニング中です。2兆パラメータで、Gemini 2.5 Pro、Claude 3.7、およびO3 Miniに挑戦することを目指していますが、社内では疑問視されています。
- ScoutとMaverickはミドルレンジの製品であり、Claude Sonnet 3.7やGemini 2.5 Proのようなトップモデルには勝てません
- オープン性に関する疑問:ライセンス制限とダウンロードゲーティングは、オープンソースコミュニティから批判を浴びています。
- 4月29日のLlamaCon:MetaがついにBehemothを発表できるかどうか、そしてそれが待つ価値があるかどうかに注目が集まっています。
物語は終わっていません。しかし今のところ、舞台は整っています。Scoutは高速です。Maverickは強力です。 そしてBehemothは?まだ影の中にあり、まだトレーニング中で、まだ不確実です。