ラマ4の失敗が確認されました - 投資家にとって何を意味するのでしょうか？

Llama 4の失敗が確定：投資家への影響は？

Meta社の主力AIモデル、Llama 4 Maverick 17B 128E Instructは、大規模言語モデルの代わりに、小さく高性能なモデルとして売り出されました。しかし、LiveBenchによる新しい独立した評価では、投資家の考え方、戦略、AI業界の競争状況を大きく変える可能性のある、全く異なる現実が明らかになりました。

誇大広告、LiveBenchの評価で失敗

つい1週間前、Meta社はLlama 4 Maverickを、コンパクトながらパワフルで、効率的で、マルチモーダルな優れた技術として宣伝しました。GPT-4oやGemini 2.0 Flashといった競合モデルよりも優れているとアピールしました。技術は大胆で、言葉もさらに大胆でした。

しかし、LiveBenchのデータは異なっていました。

推論能力: 43.83
コーディング: 37.43
言語理解: 49.65
数学: 60.58
データ分析: 59.03
IF (統合/推論スコア): 75.75
全体平均: 54.38

これらの数値は、Maverickを競合モデルの中で最下位に位置づけています。投資家が期待していたレベルをはるかに下回ります。リストの20位で、Gemini 2.0 FlashやGPT-4oよりも性能が低いことから、Llama 4の性能不足が確定し、これら2つのモデルを上回ると主張した広報発表も誤りであることが証明されました。

推論能力43：考えられないモデルは競争できない

LLMのユーザーにとって、推論能力は必須の能力です。これは、使えるモデルと高性能なチャットボットを区別する指標です。

スコア43.83のLlama 4 Maverickは、最高レベルのGemini 2.5 Pro Experimentalよりも約50%も性能が劣ります。複数の顧客に確認したところ、この指標だけで、このモデルは本格的な企業での利用には不向きとのことでした。

ある大手証券会社のAI戦略担当者は、次のように述べています。

「モデルの評価は、応答速度やトークン数だけではありません。認知能力が重要です。43では、期待できる結果は得られません。」

コーディングの失敗：物語を壊したコード

最もビジネスに大きな影響を与えるのは、Maverickのコーディングスコア37.43でしょう。この分野では、モデルは最も直接的な投資収益率（ROI）を生み出すことができます。開発支援、コードレビュー、ペアプログラミング、バックエンドサポートなどが含まれます。

Meta社の広報では、MaverickはコーディングタスクにおいてDeepSeek v3と同等であると大胆に主張していました。しかし、LiveBenchのデータはそれを裏付けていません。実際には、2024年初頭のオープンソースのベータモデルに近い性能であり、最先端の企業向けモデルではありません。