Moonshot AI、OpenAIとDeepseekに対抗する初のオープンソース1兆パラメータモデル「Kimi K2」を発表

著者
CTOL Editors - Ken
9 分読み

中国のムーンショットAI、初の1兆パラメータオープンソースモデルを発表 シリコンバレーのAI支配に挑む

Kimi K2の類を見ない規模と斬新なアーキテクチャは、世界のAI開発競争における新段階を告げ、市場の力学と投資戦略に大きな影響を与えるだろう

2025年7月11日、ムーンショットAIが世界初の1兆パラメータオープンソース言語モデル「Kimi K2」をリリースし、人工知能の情勢は劇的に変化した。このマイルストーンは単なる技術的成果にとどまらず、Deepseekに加え、中国がオープンソースAI開発において手ごわい勢力として台頭し、プロプライエタリモデルやOpenAIが今後リリースするオープンソースモデルに直接的な挑戦を突きつけていることを示している。

その直後、OpenAIはさらなる改良の必要性を理由に、オープンソースLLMのリリース延期を発表した。エイダン・クラーク氏(@aidan_clark)の投稿によると、モデルは機能的には「驚異的」であるものの、OpenAIはオープンソースリリースの基準を高く設定しており、「あらゆる面で」その基準を満たしていることを確認したいと述べている。彼は「これは廃止されるものであってはならない!」と強調し、OpenAIがこれを長続きする、主力となるオープンリリースにしようとしている意図を裏付けている。

規模が戦略となる時:1兆パラメータの賭け

Kimi K2は、384のエキスパートを特徴とする洗練されたスパースMixture-of-Experts(MoE)アーキテクチャを採用しており、推論ごとにわずか8つのエキスパートのみが活性化される。この設計により、合計1兆パラメータを維持しながら、運用中に320億のアクティブパラメータしか使用しないという驚異的な成果を達成している。これは、比例的な計算オーバーヘッドなしに膨大なモデル容量を提供する構成である。

モデルの性能指標は、その野心を示している。コーディングベンチマークでは、K2はエージェントモードのSWE-bench Verifiedで65.8%の成功率を達成し、GPT-4.1の54.6%を上回ったが、Claude Sonnet 4には及ばなかった。インタラクティブなプログラミング能力を測定するLiveCodeBenchでは、K2は53.7%を記録し、実世界の開発シナリオにおける能力を示した。

これらの結果は、K2が利用可能なオープンソース基盤モデルの中で最も強力であることを示しているが、市場関係者は、DeepSeek R1やGPT-o1のようなモデルに見られる推論能力の強化が欠けているという重要な違いを指摘している。

ミューオン革命:革新と論争の狭間で

K2の能力の背後には、AI研究コミュニティ内で激しい議論を巻き起こしている技術革新がある。このモデルは、ムーンショットAIが広く使われているAdamWオプティマイザと比較して優れたトークン効率を提供すると主張する、カスタム最適化アルゴリズムであるMuonオプティマイザのみを使用して学習された。

ご存知でしたか? Muonオプティマイザは、特にKimi K2のような行列計算を多用するアーキテクチャにおいて、大規模言語モデルのトークン効率とスケーリング安定性を向上させるために導入された新しい学習手法です。要素ごとの更新を行うAdamWのような従来のオプティマイザとは異なり、Muonは行列レベルで動作し、Nuclear Norm Softmax(NS)を適用して重み行列のスペクトルノルムを制御します。これは本質的に、更新中に最大の特異値を制約することに相当します。このスペクトルノルム制御は、より安定かつ効率的な最適化をもたらし、特にMuonがモデルサイズ全体で数学的に整合したスケーリング挙動を提供することで優位性を発揮するMaximal Update Parametrization(MuP)と組み合わせた場合に顕著です。しかし、Muonには実用上の課題があります。更新時に完全なパラメータ行列を必要とするため、個々のテンソルをデバイス間でシャーディングするZero-1シャーディングやFSDPのような最新の分散学習設定とは衝突します。ムーンショットAIのKimi K2における回避策は、実用的な「ブルートフォース・ギャザー」戦略であり、必要な場合にのみ完全な行列を再構築します。このアプローチは、スパースMoEアーキテクチャと慎重なパラメータレイアウトのおかげで実現可能となりました。また、爆発的なアテンションロジットなどの潜在的な不安定性に対処するため、ムーンショットAIはMuonClipも導入しました。これは、フロベニウスノルムに基づいてQK射影行列をスケーリングし、スペクトルノルムの成長を暗黙的に制限する更新後のクリッピング手法です。MuonとMuonClipは連携して洗練された最適化スタックを形成し、Kimi K2が15.5兆トークンにわたって学習スパイクなしに安定して学習されることを可能にし、大規模LLM学習における主要な革新となっています。

しかし、Muonのアプローチはインフラ面で大きな課題を提示する。このオプティマイザは完全なパラメータ行列へのアクセスを必要とするため、現在の分散学習フレームワーク下では実装が高コストになる。一部の技術専門家は、ムーンショットAIのアプローチのスケーラビリティに疑問を呈しており、同社の特殊なインフラ設定内でのみ実行可能かもしれないと示唆している。

ムーンショットAIは、大規模モデルの学習失敗の一般的な原因であるアテンション重みの爆発を防ぐ新しい技術であるMuonClipを通じて、学習安定性の懸念に対処した。同社の15.5兆トークンを超える学習はスパイクなしで進行し、大規模モデル学習における重要な技術的成果となった。

「話す」だけでなく「機能する」:K2のエージェントファースト革命

K2の最も戦略的に重要な特徴は、そのネイティブなエージェント機能かもしれない。ツール使用のために広範な追加学習を必要とする従来の言語モデルとは異なり、K2は最初からエージェント型ワークフローのために明示的に設計された。このモデルは、オープンエージェントベンチマークであるAceBenchで76.5%の精度を達成し、ClaudeやGPT-4の性能レベルに匹敵する。

このエージェントファーストのアプローチは、AIアプリケーションパターンの広範な変化を反映している。ムーンショットAIは、主に会話型AIに焦点を当てるのではなく、K2を自動タスク実行と多段階の問題解決のために位置付けている。市場アナリストは、企業が自律的なワークフロー管理が可能なAIシステムをますます求めるようになるにつれて、この位置付けが先見の明があるものとなる可能性があると示唆している。

このモデルは、給与データの分析やインタラクティブなHTMLビジュアライゼーションの生成など、複雑な多段階タスクにおいて特に強みを発揮する。しかし、内部テストでは、モデルがタスク完了に時折苦戦する、非常に複雑または曖昧なシナリオにおいていくつかの

あなたも好きかもしれません

この記事は、 ニュース投稿のルールおよびガイドラインに基づき、ユーザーによって投稿されました。カバー写真は説明目的でコンピューターにより生成されたアートであり、事実を示すものではありません。この記事が著作権を侵害していると思われる場合は、 どうぞご遠慮なく弊社まで電子メールでご報告ください。皆様のご協力とご理解に感謝申し上げます。これにより、法令を遵守し、尊重あるコミュニティを維持することが可能となります。

ニュースレターに登録する

最新のエンタープライズビジネスとテクノロジー情報をお届けします。さらに、新しいサービスや提供物をいち早く独占的にチェックできます。

当社のウェブサイトでは、特定の機能を有効にし、より関連性の高い情報を提供し、お客様のウェブサイト上の体験を最適化するために、Cookieを使用しています。詳細については、 プライバシーポリシー および 利用規約 で確認できます。必須情報は 法的通知