1兆パラメータの賭け:アリババのQwen3-MaxがAIのスケーリング則の健在を証明
独占分析により、中国テック大手の巨大モデルが人工知能の限界に関する従来の常識を覆す
最近、シリコンバレーの役員室や世界中の研究室で、ある根本的な問いが影を落としてきた。「我々は限界に達したのか?」訓練コストが数億ドルにまで高騰し、懐疑論者が収穫逓減を警告する中、アリババはQwen3-Maxの発表をもって、その問いに明確な回答を示した。その影響は中国の国境をはるかに越えるものだ。
2025年9月24日に雲栖(うんせい)大会で発表されたこのモデルは、1兆個以上のパラメータと36兆個のトークンで訓練されており、これはほんの数年前には想像すらできなかった規模だ。しかし、この驚異的な数字の裏には、より深い物語がある。CTOL.digitalのエンジニアリングチームによる独自テストで、AIの議論の的となっている「スケーリング則」(モデルが大きければ大きいほど性能が向上するという原則)が、頑固なまでに、そして驚くべきことに、依然として有効であることが明らかになったのだ。

限界を突破する
「大きいことは良いことだ。大きいものは依然として機能する」—プログラミング、物理シミュレーション、複雑な推論タスクにおいてQwen3-Maxを徹底的にテストした広範な社内分析は、このように結論づけている。この結論は、人工知能が根本的な限界に達したと主張する批判的な声の高まりに異議を唱えるものだ。
証拠は印象的だ。直接比較テストにおいて、Qwen3-Maxは「GPT-4を困惑させた」数学パズルを正しく解き、正解を導き出した。4次元超立方体内でボールが跳ねる様子をシミュレートするウェブアプリケーションの構築を求められた際、このモデルは、以前の世代では不可能だった機能的なコードを生成した。
最も注目すべきは、このモデルが研究者たちが「ワンショットで実行可能なプロジェクト」と呼ぶものを実証したことだ。単なるコードスニペットではなく、完全に実行可能なソフトウェアアプリケーションを生成する能力は、質的な飛躍を意味する。
合成データ革命
Qwen3-Maxの性能の背後には、訓練方法における静かなる革命がある。自然なウェブデータがますます「採掘し尽くされる」中、アリババは合成データ生成と洗練された訓練技術に転換し、前身モデルより約80%多い36兆個のトークンというマイルストーンを達成した。
CTOL.digitalの分析は、「我々はスケーリング則の次世代を目の当たりにしている」と述べる。「『力ずくのスケールアップ』から『スマートなスケールアップ』への移行」—これは、データ品質、合成生成、そしてモデルが複数の解決策を試行し最良の結果を選択できる「テスト時計算」と呼ばれるものに重点を置いている。
このアプローチは劇的な成果をもたらした。AIME 25とHMMTの数学ベンチマークにおいて、Qwen3-Maxの「思考」バリアントは100点満点を達成した。これは中国で開発されたモデルとしては初めての快挙であり、OpenAIとGoogleの最も先進的なシステムに匹敵する偉業である。
実世界への影響
理論的な成果は、ソフトウェア開発と自動化を再構築する可能性のある実用的な能力へと転換される。CTOL.digitalの社内テストでは、Qwen3-Maxが、適切なセマンティックHTML、ARIAアクセシビリティ標準、高度なモーダルインタラクションを備えた複雑なゲーム(以前にクライアント向けに構築したもの)の生成に優れていることが明らかになった。これらは、性能の低いモデルではしばしば無視されたり、不正確に実装されたりする技術的要件である。
コーディングベンチマークでは、実際のソフトウェアバグを使用したSWE-Bench Verifiedで69.6点を獲得し、世界的にトップクラスの性能を持つシステムの一つとなった。ツール呼び出しとワークフロー自動化を測定するTau2-Benchでは、Qwen3-Maxは74.8点を獲得し、Claude 4 OpusやDeepSeek V3.1を上回った。
おそらく最も重要なのは、このモデルが研究者たちが「エージェント能力」と呼ぶもの、つまり、外部ツールを使用し、コードを実行し、実際のソフトウェア開発プロセスを模倣する複雑な多段階ワークフローを処理する能力を実証したことだ。
究極の問い
Qwen3-Maxの成功は、AI業界の将来に深い意味を持つ。このモデルはスケーリング則が能力向上をもたらし続けることを証明する一方で、最先端のAI開発における参入障壁の高まりも浮き彫りにしている。
当社の社内分析は、「1兆パラメータの訓練には、膨大な計算資源と高度なエンジニアリングの成熟度が求められる」と指摘する。「ほとんどのプレイヤーは、基盤レベルで競争しようとするよりも、このようなベースモデルの上に構築すべきだ」。
この力学はすでに競争環境を再構築している。このモデルはMixture of Experts(MoE)アーキテクチャを採用しており、推論時にはパラメータの一部のみが活性化するため、性能優位性を維持しつつ、兆パラメータモデルを経済的に実現可能にしている。
アリババの報告によると、訓練効率は以前の世代と比較して30%向上し、新しい並列化技術により長文脈訓練のスループットが3倍になった。同社は、自動監視および復旧システムにより、ハードウェア障害によるダウンタイムを以前のレベルの5分の1に削減した。
世界への影響
Qwen3-Maxの成功は、単なる技術的マイルストーン以上の意味を持つ。それは、中国が世界のAI競争において真の同等な存在として台頭していることを示している。このモデルの国際ベンチマークでの性能と、高度な推論能力の統合は、アメリカやヨーロッパの技術的優位性に関する前提に異議を唱えるものだ。
「これは中国のモデルにとって画期的な出来事だ」とある分析は指摘し、AI開発をますます特徴づける国家主義的な側面を浮き彫りにしている。プログラミングや科学的推論に優れながら、多言語タスクを処理できるこのモデルの能力は、地域市場を超越した可能性を示している。
しかし、より広範なアクセシビリティとオープン性については疑問が残る。多くの欧米の競合モデルとは異なり、Qwen3-Maxはオープンソースではなく、OpenAI互換APIを備えたアリババクラウドのModel Studioを通じて利用可能だ。このアプローチは、AI開発における商業的利益と科学的協力の間の広範な緊張を反映している。
今後の展望
AI業界がQwen3-Maxの影響に直面する中で、一つの結論は避けられないようだ。スケーリング則の終焉に関する報告は、大いに誇張されていた。このモデルの成功は、汎用人工知能(AGI)への道は開かれているものの、その道のりはますます高価で技術的に要求が厳しくなることを示唆している。
当社のエンジニアリングチームは、「スケーリング則は経験則であり、自然法則ではない」と警告する。「新しいアーキテクチャや、データの限界、エネルギーの限界によって変化する可能性もある」。しかし今のところ、証拠は、より大規模なモデル、よりスマートな訓練、そしてより洗練された推論技術から継続的な利益が得られることを示している。
競合他社が直面する問いは、もはやスケーリングが機能するかどうかではなく、効果的にスケーリングするためのリソースと専門知識を持っているかどうかだ。参入障壁が高まり続ける分野において、Qwen3-Maxはブレイクスルーであると同時に警告でもある。AI覇権を巡る競争において、参加費用は前例のない高さに達している。
あるアナリストは、その特徴的な率直さでこう述べた。「大きいことは依然として利益をもたらす」。今の課題は、誰が「大きい」ままでいられるか、そして今世紀最も重要な技術競争の傍観者となることを強いられるのは誰かを決定することだ。
投資助言ではありません
