アリババ、オープンソース動画AI「Wan2.2」を発表 — 開発者コミュニティからは技術評価が賛否両論

アリババ、オープンソース動画AI「Wan2.2」を発表開発者コミュニティからの技術評価は賛否両論

AI生成動画の激しい競争環境において、アリババの通義実験室は、最新のオープンソース動画生成システムであるWan2.2を発表しました。Apache 2.0ライセンスで公開されたこのモデル群は、コンシューマー向けハードウェアで動作しながら、照明、色彩、構図をかつてないほど詳細に制御できる、映画品質の動画を生成すると謳われています。しかし、世界中の開発者がこれらの主張を検証するにつれて、よりニュアンスのある現実が明らかになっています。

Wan

トリプルスレット：動画生成を再構築する3つのモデル

アリババの戦略は、特化を通じて差別化を図っており、異なるユースケースに対応する3つの異なるモデルを導入しています。

フラッグシップのT2V-A14Bは、純粋なテキストから動画への生成を担当し、480Pまたは720Pの解像度で5秒のクリップを生成します。そのコンパニオンであるI2V-A14Bは、画像から動画への変換に特化しており、従来の世代と比較してアーティファクト（ノイズ）が著しく低減されています。どちらも80GB以上のVRAMという膨大な計算リソースを必要とし、プロフェッショナル領域に位置付けられます。

しかし、驚くべきはTI2V-5Bです。これはテキストと画像の両方の入力を受け入れ、RTX 4090のようなコンシューマー向けGPUで720Pの動画を24fpsで生成するハイブリッドモデルです。この小型モデルは、これまでデータセンターに限定されていた技術を民主化し、5秒のクリップを9分未満で生成できます。

「5Bモデルの性能とアクセシビリティの比率は、真の転換点を示しています」と、3つのバリアントすべてをテストした機械学習エンジニアは述べています。「これまでクラウドAPIのクレジットが必要だった機能を、コンシューマー向けハードウェアにもたらします。」

誤解を招くMoE：アーキテクチャ上の手品

技術アナリストは、アリババがWan2.2を「Mixture-of-Experts（MoE）」アーキテクチャと特徴付けていることに眉をひそめています。この主張は綿密な検証が必要です。

動的ルーティングを備えた従来のMoEシステムとは異なり、Wan2.2はStable Diffusion XLのベース・リファイナーアプローチを彷彿とさせる2段階の拡散パイプラインを実装しています。このシステムは2つの専門コンポーネントを採用しています。1つはレイアウトと構図のためにゼロから訓練された高ノイズエキスパート、もう1つは詳細な洗練のためにWan2.1からファインチューニングされた低ノイズエキスパートです。

「これはルーティング層を備えた真のMoEではありません」と、拡散モデルを専門とする研究者は説明します。「本質的にはノイズレベルに基づくエキスパートの切り替えであり、確かに有意義な最適化ですが、ほとんどの人がMoEアーキテクチャと見なすものではありません。」

合計パラメータ数は270億とかなりの数に達しますが、推論ステップ中にアクティブになるのは140億のみです。これにより、システムはメモリ効率を維持しつつ、実質的にニューラルネットワークの容量を倍増させています。

2つのVAEの物語：技術的な隔たり

Wan2.2の開発優先順位を最も明確に示しているのは、その圧縮技術かもしれません。5Bモデルは、驚異的な16×16×4の圧縮比を達成する新しい変分オートエンコーダ（VAE）を導入しており、Wan2.1の4×8×8 VAEの4倍の効率です。これにより、小型モデルでもパラメータ数が控えめであるにもかかわらず、24fpsで720P動画を生成できます。

奇妙なことに、より強力な14Bモデルは、依然として古く効率の低いWan2.1 VAEを使用し続けています。これにより、「予算モデル」がプレミアムモデルよりも先進的な圧縮技術を採用しているという状況が生まれています。

「『2.2』モデルが依然として2.1のVAEを使用しているのは奇妙です」と、両システムをベンチマークした開発者は指摘しました。「この一貫性のなさが、統合されたワークフローにとって不必要な障壁を生み出しています。」

顕微鏡の下で：プレスリリースを超えた性能

コミュニティによるベンチマークでは、マーケティング上の主張と実際の性能との間に明確な対照が見られます。AWSクレジットに10ドルを費やしてモデルをテストしたZhihuユーザーは、示唆に富む結果を報告しています。

5Bモデルはコンシューマー向けハードウェア（RTX 4090）で優れた性能を発揮し、20のデノイジングステップを約2.5分で完了し、合計生成時間は約9分です。しかし、テキストのレンダリングで一貫して苦戦し、「8ビットレトロ」のようなスタイルプロンプトを無視し、特に顔や詳細なシーンでは明らかに「低忠実度」の結果を生成します。

「5Bに映画品質を期待しないでください」とテスターは警告しました。「レトロやアニメーションのシーンには優れていますが、人物、テキスト、または細かいディテールでは苦戦します。」

L40S GPU（48GB VRAM）でテストされた14Bモデルは、フレームの一貫性とリアリズムが大幅に改善されていますが、かなりのコストがかかります。メモリ効率の高いFP8モードで動作しても、5秒の動画を1本生成するのに約48分を要します。さらに問題なのは、それらがより小型のモデルと同じく、テキストレンダリングとスタイルプロンプトの順守に関する根本的な限界を依然として示していることです。

統合の展望：エコシステム対応状況

Wan2.2の実用性は、既存のワークフローとの統合に大きく依存します。アリババは、ComfyUIやDiffusersを含む人気フレームワークとの互換性を確保し、LoRAトレーニング、FP8量子化、マルチGPU推論をサポートしています。

しかし、Wan2.1エコシステムの主要機能、例えばVACEサポート、シーン補間、フレーム予測などが著しく欠如しています。これらの機能の欠如は、14Bモデルにおける古いVAEの継続と相まって、エコシステムの整合性よりもマーケティング上の目標を優先した断片的な開発アプローチを示唆しています。

データへの渇望：舞台裏のスケール

Wan2.2の機能の背後には、並外れたデータスケーリングの努力があります。アリババのドキュメントによると、このシステムは前身と比較して65.6%多い画像と83.2%多い動画で訓練されており、モーション処理、意味的正確性、美的品質において測定可能な改善をもたらしています。

この膨大なデータ投入により、Wan2.2の最も印象的な機能が実現しました。それは、照明、カラーグレーディング、カメラのスタイルを、プロの動画編集スイートでのみ利用可能だった精度で調整できる、60以上の微調整可能な美的制御パラメータです。

市場分析：動画AI競争における投資の視点

AI動画生成分野を追う投資家にとって、Wan2.2は機会と注意の両方を示唆しています。コンシューマー向けモデルとプロフェッショナルモデルとの間に明確な性能差があることは、特定のハードウェア構成向けにこれらのシステムを最適化するミドルウェアソリューションに大きな潜在力があることを示唆しています。

コンテンツクリエイターが14B規模のモデルを手頃なハードウェアで実行する方法を模索するにつれて、GPUメモリ最適化、モデル量子化、および特殊な推論エンジンを開発する企業への需要が増加する可能性があります。同様に、これらのモデル向けに最適化された推論を提供するクラウドプロバイダーは、特殊なGPUへの投資をためらうクリエイターから大きな市場シェアを獲得できるかもしれません。

Wan2.2自体の技術的な断片化、特に一貫性のないVAEの実装は、これらの異なるアプローチを整合性のあるワークフローに統合できる企業に機会があることを示しています。ポストプロセシングやハイブリッドレンダリングを通じて5Bモデルと14Bモデルの品質ギャップを埋めるツールを作成するソフトウェア開発者は、大きな支持を得る可能性があります。

AIアクセラレーションを専門とするハードウェアメーカーも恩恵を受けるでしょう。14Bモデルを実行する上で、NVIDIAのLシリーズのようなGPUがコンシューマーカードに比べて明らかに優位であることは、クラウドサービスに依存するのではなく、これらの機能をローカルで活用しようとする真剣なコンテンツクリエイターの間で新たなアップグレードサイクルを促進する可能性があります。

投資の視点：現在のAI動画生成技術の断片的な性質は、統合および最適化ソリューションに機会があることを示唆しています。ハードウェアアクセラレーション、メモリ効率の高い推論、ワークフロー統合ツールを開発する企業は、これらのモデルの普及が進むにつれて恩恵を受ける可能性があります。コンシューマー向けとプロフェッショナル向けの実装との間に大きな性能差があることは、潜在的なミドルウェア市場を示しています。しかし、投資家は、この技術が急速に進化しており、今後の世代で根本的なアーキテクチャの変更が行われる可能性が高いことを認識すべきです。類似技術の過去のパフォーマンスは将来の結果を保証するものではなく、技術トレンドに基づく投資判断を行う前に、ファイナンシャルアドバイザーへの相談をお勧めします。