Llama 4の失敗が確定:投資家への影響は?
Meta社の主力AIモデル、Llama 4 Maverick 17B 128E Instructは、大規模言語モデルの代わりに、小さく高性能なモデルとして売り出されました。しかし、LiveBenchによる新しい独立した評価では、投資家の考え方、戦略、AI業界の競争状況を大きく変える可能性のある、全く異なる現実が明らかになりました。
誇大広告、LiveBenchの評価で失敗
つい1週間前、Meta社はLlama 4 Maverickを、コンパクトながらパワフルで、効率的で、マルチモーダルな優れた技術として宣伝しました。GPT-4oやGemini 2.0 Flashといった競合モデルよりも優れているとアピールしました。技術は大胆で、言葉もさらに大胆でした。
しかし、LiveBenchのデータは異なっていました。
- 推論能力: 43.83
- コーディング: 37.43
- 言語理解: 49.65
- 数学: 60.58
- データ分析: 59.03
- IF (統合/推論スコア): 75.75
- 全体平均: 54.38
これらの数値は、Maverickを競合モデルの中で最下位に位置づけています。投資家が期待していたレベルをはるかに下回ります。リストの20位で、Gemini 2.0 FlashやGPT-4oよりも性能が低いことから、Llama 4の性能不足が確定し、これら2つのモデルを上回ると主張した広報発表も誤りであることが証明されました。
推論能力43:考えられないモデルは競争できない
LLMのユーザーにとって、推論能力は必須の能力です。これは、使えるモデルと高性能なチャットボットを区別する指標です。
スコア43.83のLlama 4 Maverickは、最高レベルのGemini 2.5 Pro Experimentalよりも約50%も性能が劣ります。複数の顧客に確認したところ、この指標だけで、このモデルは本格的な企業での利用には不向きとのことでした。
ある大手証券会社のAI戦略担当者は、次のように述べています。
「モデルの評価は、応答速度やトークン数だけではありません。認知能力が重要です。43では、期待できる結果は得られません。」
コーディングの失敗:物語を壊したコード
最もビジネスに大きな影響を与えるのは、Maverickのコーディングスコア37.43でしょう。この分野では、モデルは最も直接的な投資収益率(ROI)を生み出すことができます。開発支援、コードレビュー、ペアプログラミング、バックエンドサポートなどが含まれます。
Meta社の広報では、MaverickはコーディングタスクにおいてDeepSeek v3と同等であると大胆に主張していました。しかし、LiveBenchのデータはそれを裏付けていません。実際には、2024年初頭のオープンソースのベータモデルに近い性能であり、最先端の企業向けモデルではありません。
「AIコーディングは、新しいクラウドです。」と、LLMのテスト運用を行っているある金融テクノロジー企業のCTOは述べています。「コーディングできなければ、お金を稼ぐことはできません。それほど単純です。」
中途半端な結果:言語、数学、データスコアが問いかける大きな疑問
論理とコーディング以外でも、状況は改善されていません。
- 言語理解のスコアは49.65
- データ分析は59.03
- 数学は、通常、トランスフォーマーアーキテクチャの得意分野ですが、60.58でした。
壊滅的な結果ではありませんが、マルチモーダルを主張するモデルとしては中途半端です。
全体平均の54.38と合わせると、結論は明らかです。Maverickは、誤解された天才ではなく、一貫して性能の低い汎用モデルです。
広報の矛盾:マーケティングと測定可能な壁
「GPT-4oとGeminiを上回る」—ただし、スライドの中だけ
Meta社の最初の発表では、Maverickは次のように宣伝されていました。
- 「最高のマルチモーダル性とコスト効率」
- 「推論とコーディングでGPT-4oを上回る」
- 「ベンチマーク全体で競争力がある」
LiveBenchの条件下では、これらの主張はどれも当てはまりません。社内指標と公開ベンチマークの間の矛盾は無視できないほど大きく、投資家にとっては重大なリスク要因となっています。
あるAIに特化したヘッジファンドマネージャーは、次のように指摘しています。
「Meta社は単に失敗しただけでなく、事実を歪曲しました。これは技術的な問題ではなく、信頼性が損なわれたということです。」
戦略の岐路:Meta社は投資家の信頼を回復できるか?
「物語重視」の戦略が、最も厳しい現実に向き合う
Meta社は、AIの超大国としての地位を確立するために、ストーリーテリングに大きく依存してきました。しかし、Maverickの失敗は、その戦略が科学に先行しすぎた可能性を示唆しています。
- 社内チームは、学習後のプロセスを見直すプレッシャーに直面する可能性があります。
- WhatsAppやMessengerなどのプラットフォームへのモデル統合は、一時停止されたと報じられています。
- Maverickに関連する製品ロードマップは、再評価されていると、関係者は語っています。
これは単なる製品の失敗ではありません。戦略的な亀裂です。
市場の反応:機関投資家が次に注目するのは
1. 短期的な見通し:変動とリスク回避の動きが予想される
Llama 4の失敗が確定したことで、AIによる収益化の加速を織り込んでいたMeta社の株価は、短期的に再評価される可能性があります。
- AIへの投資比率が高いファンドは、Meta社の株式の売却を開始する可能性があります。
- 「AIプレミアム」への再評価が進み、テクノロジー株の倍率がわずかに低下する可能性があります。
- Maverickの迅速かつ説得力のある代替モデルがない場合、アナリストは目標株価を引き下げる可能性があります。
2. 中期的な見通し:戦略的転換またはより深い構造的な懸念
投資家は、次の点を注視します。
- Meta社のAI研究開発予算の再配分
- AI製品部門の幹部交代
- Llama技術に依存する下流製品の発売時期の修正
さらなる遅延や否定の兆候が見られれば、資金流出が加速する可能性があります。
3. 長期的な見通し:Meta社は依然として数十億トークン規模の競争に参入できるか?
今回の失敗にもかかわらず、Meta社は依然として次の強みを持っています。
- 膨大な独自のデータ資産
- 優秀な研究人材
- 世界最大の消費者向けプラットフォームへの統合チャネル
- 潤沢な資金
期待値を調整し、汎用LLMから特定の分野に特化した優れたモデルに移行できれば、再び存在感を示すことができるかもしれません。
しかし、過大な約束と期待外れを繰り返せば、長期的な投資家の忍耐は限界に達する可能性があります。
本当のリスク:AIの信頼性競争に敗れること
競合他社は、この機会に乗じようとしている
GoogleやOpenAIなどの競合他社は、より優れたベンチマーク以上のものを持っています。それは、より良いタイミングです。企業の導入が第2四半期と第3四半期に加速する中、Meta社のモデルポートフォリオは突然疑問符となり、他の企業は検証済みの高性能な製品を出荷しています。
資本市場の用語で言うと、先行者優位性が変化しました。
検証の時代には、物語だけでは不十分
GPT-4o後の世界では、投資家の評価に耐えうるAIモデルは、**言葉だけでなく、結果を示す必要があります。**測定されたデータがメッセージと矛盾する場合、広報は意味を持ちません。
「もはや物語で性能を補うことはできません。」と、ある政府系ファンドのポートフォリオアナリストは述べています。「主張と能力が一致している必要があります。そうでなければ、株式を再評価します。」