アリババ、Qwen3-Omniを発表:クローズドソースのマルチモーダルLLMに対する中国の大胆な回答

著者
CTOL Editors - Lang Wang
11 分読み

アリババ、Qwen3-Omniを発表:クローズドソース型マルチモーダルLLMに対する中国の大胆な回答

中国・杭州 — アリババは、世界のAI競争において大きな一手に出た。同社は、テキスト、画像、音声、動画を一度に処理できるマルチモーダルAIシステム『Qwen3-Omni』を発表した。これは、OpenAIのGPT-4oやGoogleのGemini 2.5 Flashに対抗する、中国初の真のオープンソースの競合となる。

多くの華々しいものの制限の多いAI発表とは異なり、Qwen3-Omniは一般に公開されている。この動きだけでも、欧米企業が自社の技術をクローズドな状態に保ってきた業界に大きな波紋を呼ぶだろう。

リアルタイムAIにおける飛躍的な進歩

Qwen3-Omniは、単なる機能満載のチャットボットではない。その核には、巧妙な「Thinker-Talker」デザインが採用されている。Thinkerは入力を処理・分析し、Talkerは即座に自然な音声で応答する。アリババは、複数の異なるモデルを組み合わせるのではなく、多くAIシステムが苦戦するぎこちない一時停止なしに、複数の形式で会話できるエンドツーエンドのシステムを構築した。

その結果は目覚ましいものだ。アリババ自身のテストでは、Qwen3-Omniは36の音声および動画ベンチマークのうち32でトップの成績を収めた。音声入力に対してはわずか234ミリ秒で応答し、これは実際の会話のように感じられるほどの速さだ。また、半時間にわたる連続音声を途切れることなく書き起こすことができる。このような速度と耐久性は、欧米の巨大企業と十分に競合できるレベルにある。

このモデルは、119の書き言葉に対応し、19の話し言葉を認識し、10の言語で音声応答が可能だ。その裏では、Mixture-of-Experts(MoE)アプローチを採用しており、300億パラメータのうち、毎回約30億パラメータのみを活性化させている。この効率性により、その規模をはるかに超える性能を発揮できる。

単なるデモではなく、開発者のためのツール

アリババは、強力なシステムを公開するだけで開発者が複雑な部分を解決するのに任せるのではなく、Qwen3-Omniを実用的なツールとともに提供した。すぐに実行できるノートブック、完全な統合ガイド、vLLMデプロイメントのサポートなどが含まれている。プログラマーにとって、これは数週間の苦労と、すぐに開発に取り掛かれるかどうかの違いを意味する。

ベースモデルに加え、アリババは以下の3つの調整されたバージョンをリリースした。

  • Qwen3-Omni-Instruct:テキストと音声で会話できるマルチモーダルアシスタント。
  • Qwen3-Omni-Thinking:困難な推論タスクのために設計。
  • Qwen3-Omni-Captioner:音声コンテンツを深く分析するために構築。

これは、万能型ソリューションではなく、開発者が求めていた多様な選択肢を提供するものだ。

当社の内部テスト結果

CTOL.digitalの当社のエンジニアリングチームは、特にその実用的な側面に感銘を受けた。称賛は一点に集中した。それは、アリババが単にモデルの重みをオンラインに公開しただけでなく、開発者が自身のプロジェクトに組み込める実践的なクックブック、例、動作するコードを提供した点である。多くの人にとって、これはマルチモーダルアプリ構築の障壁を大幅に引き下げるものだ。またQwen3-Omniは、多くのオープンソース競合が持ち合わせていない、優れた世界知識に基づく事実の正確さでも驚きをもたらした。

それでも、Omniは完璧ではない。アリババのより大規模な『Qwen3-Max』と比較すると、Omniは純粋な深さよりも速度と使いやすさを重視している。OCRのような認識タスクには優れているが、数学の問題ではつまずき、時に架空の答えを作り出すことがある。細かい視覚処理においては、Maxが小さなテキストを読んだり、画像領域全体のコンテキストを繋ぎ合わせることでOmniを上回る。しかしMaxには独自の癖があり、絵文字が多すぎたり、過度に装飾されたマークダウン、そしてテスターがロボット的だと感じたトーンが挙げられる。Omniは、その限界があるにもかかわらず、より自然に感じられる。

広範な研究推進

このリリースは単独で行われたものではない。アリババは復旦大学と共同で、大規模な実世界の人間による選好に基づいてAIを訓練するためのフレームワークである『World Preference Modeling』を最近発表した。WorldPMは、小規模な手作業でラベル付けされたデータセットのみに頼るのではなく、Reddit、Quora、StackExchangeのようなフォーラムを活用する。

彼らの発見は重要だ。コーディングや数学のような事実的で客観的なタスクでは、モデルが大規模化するにつれて明確な「創発的」な利益が見られる。一方で、主観的なスタイル、例えばトーンや文章の巧みさに関しては、人間の選好が衝突し、ノイズが入り込むため、その恩恵は曖昧だという。これは、AIを現実の多様な人間的価値観に合わせるための重要な一歩である。

クローズドソースの欧米優位性への挑戦

このタイミングは偶然ではない。中国と欧米の間の緊張が高まるにつれて、中国のテック企業は外国製AIへの依存を減らしたいと考えている。アリババがQwen3-Omniをオープンソース化するという決定は、OpenAIとGoogleのますます閉鎖的なアプローチとは対照的である。

ベンチマーク結果は、アリババが虚勢を張っているわけではないことを示唆している。このモデルは事実の正確さにおいても競合を上回り、他が見逃した微妙な歴史的言及を捉えることもできた。とはいえ、高度な数学やきめ細かい視覚分析といった分野では依然として遅れをとっている。興味深いことに、アリババ自身のQwen3-Maxはこれらのタスクをより良く処理する。しかし、リアルタイム会話や画像からのテキスト読み取りといった日常的な使用においては、Qwen3-Omniが真価を発揮する。

中国を超えた視点

アリババは明らかにグローバルなオーディエンスを視野に入れている。同社は英語資料を展開し、国際的なユーザーを対象としたデモを披露した。印象的な例としては、ウェアラブルデバイスを介したライブ翻訳があり、これは欧米の消費者向けAI製品との直接的な競争を示唆している。

中国国内では、アリババの『Quarkチャットボット』が中国のアプリランキングで上昇し、『Quark AIグラス』が市場に投入される中でQwen3-Omniが登場した。これは単独の発表というよりも、AI搭載コンシューマーテックへの協調的な推進の中心であるように感じられる。

業界への影響

Qwen3-Omniをオープンソース化することで、アリババは高度なマルチモーダルAIを構築したいと考えるすべての人々の参入障壁を引き下げる。かつて競争するために膨大なリソースが必要だった開発者たちは、すぐに利用できる強固な基盤モデルを手にした。これは新たなイノベーションの波を引き起こし、大手企業に自社の技術をどれほど厳しく守るべきか再考を促す可能性がある。

ある業界アナリストは、「アリババは基本的に、本格的なマルチモーダルアプリを構築するための完全なツールキットを投入した」と述べ、「それは世界中の開発者にとってゲームチェンジャーとなるだろう」と付け加えた。

Qwen3-Omniは、Qwen Chat、Hugging Faceのデモ、そしてアリババ独自のAPIプラットフォームを通じてすでにテストできる。このリリースには、通常の試行錯誤のプロセスよりもはるかにスムーズな統合を可能にするドキュメントが付属している。

この大胆な一手により、中国はAI開発の最高層にしっかりと足を踏み入れた。そしてQwen3-Omniをオープンソースに保つことで、アリババは欧米を支配するますます閉鎖的なエコシステムに対する真の代替案を確保する。

あなたも好きかもしれません

この記事は、 ニュース投稿のルールおよびガイドラインに基づき、ユーザーによって投稿されました。カバー写真は説明目的でコンピューターにより生成されたアートであり、事実を示すものではありません。この記事が著作権を侵害していると思われる場合は、 どうぞご遠慮なく弊社まで電子メールでご報告ください。皆様のご協力とご理解に感謝申し上げます。これにより、法令を遵守し、尊重あるコミュニティを維持することが可能となります。

ニュースレターに登録する

最新のエンタープライズビジネスとテクノロジー情報をお届けします。さらに、新しいサービスや提供物をいち早く独占的にチェックできます。

当社のウェブサイトでは、特定の機能を有効にし、より関連性の高い情報を提供し、お客様のウェブサイト上の体験を最適化するために、Cookieを使用しています。詳細については、 プライバシーポリシー および 利用規約 で確認できます。必須情報は 法的通知