華為、大規模AIモデル推論向けCloudMatrixシステムを発表
華為(ファーウェイ)は、大規模AIモデルの推論用に設計された384個のAscend-910Cニューラル処理ユニットを中心に構築された特殊なコンピューティングプラットフォームであるCloudMatrix384システムの詳細を記した技術文書を公開しました。このシステムには、6710億のパラメーターを持つDeepSeek-R1のような非常に大規模なMixture-of-Experts言語モデル向けに最適化された推論スタックであるCloudMatrix-Inferが含まれています。
技術アーキテクチャと革新
CloudMatrixシステムは、そのアーキテクチャにいくつかの重要な技術革新を実装しています。設計の中心となるのは、すべてのNPUとCPU間の直接通信を最小限の遅延オーバーヘッドで可能にするUnified-Busメッシュネットワークです。技術報告書によると、この相互接続はノード間通信において帯域幅の損失を3%未満に抑え、遅延を1マイクロ秒未満に抑えます。
システムは、AI推論に対して分離型アプローチを採用しており、プロセスをプリフィルNPU、デコードNPU、DRAMをバックアップとするキャッシングクラスターという3つの異なるリソースプールに分割しています。これらのコンポーネントはUnified-Busを介して互いに直接アクセスするため、ローカリティ対応のスケジューラは不要となり、より効率的なリソース利用が可能になります。
「このアプローチはメモリ階層を効果的に平坦化し、よりシンプルなステートレススケジューラとプールされたキャッシュを可能にします」と技術文書は説明しており、この設計によりシステム内のあらゆる場所にあるアイドルDRAMがキーバリューキャッシュやモデルキャッシュとして利用可能になると述べています。
パフォーマンス指標と比較
報告書に含まれるパフォーマンスデータによると、CloudMatrixシステムは4Kトークンプロンプトを用いたプリフィル操作でNPUあたり毎秒6,688トークンを達成し、これは1TFLOPSあたり毎秒4.45トークンに相当します。デコード操作では、バッチサイズ96で実行した場合、システムはNPUあたり毎秒1,943トークンを処理し、総処理オーバーヘッド時間は50ミリ秒未満です。
報告書は、これらの効率指標がNVIDIA H100およびH800ハードウェアで動作する同等のシステムの公開された数値を上回ると述べています。15ミリ秒というより厳しいレイテンシー要件に制約された場合でも、システムはバッチサイズを自動的に調整することで、毎秒538トークンのスループットを維持します。
システムに実装されている量子化技術により、適切な場面ではINT8精度を適用しつつ、繊細な操作にはBF16/FP32精度を維持することが可能です。報告書は、この混合精度アプローチがモデルの精度を保ちながらメモリ要件を大幅に削減することを示しており、ベンチマーク結果は、INT8モデルが英語、コード、数学、中国語の評価スイート全体でFP-ベースラインのパフォーマンスと一致するか、ほぼ一致することを示しています。
経済的考慮事項
技術文書には、システムの概算コストが含まれています。完全なCloudMatrix384ラックは概算で5,000万円(約690万ドル相当)と見積もられ、個々のAscend 910Cチップの価格は約15万円です。スループットの測定に基づくと、これは生成された100万トークンあたり約2円のコストに相当します。
システムのElastic Memory Serviceは、追加の運用効率上の利点を提供します。従来のノードローカルDRAMアプローチでは281秒かかるところ、約5秒でモデル切り替えが可能であり、DRAMフットプリントも従来のアプローチの8分の1で済みます。
技術実装の詳細
いくつかの専門的な技術が、システムのパフォーマンス特性に貢献しています。
-
大規模エキスパート並列化 - システムは最大320のエキスパートでエキスパート並列化を実装し、NPUダイあたり正確に1つのエキスパートを分散させ、密な層にはデータ並列化を使用しています。
-
ハイブリッドおよびマイクロバッチパイプライン処理 - プリフィル操作では、システムはMulti-Head Latent Attention向けにハイブリッドテンソル並列化とエキスパート並列化を2つのマイクロバッチパイプライン処理と組み合わせて使用します。デコード操作では、マイクロバッチあたりオーバーラップしたアテンションとMoEストリームを使用します。
-
マルチトークン予測 - システムは投機的検証により1ステップあたり2トークンを生成し、バッチサイズに応じて6〜49%の追加デコードスループットを提供します。
-
Ascendネイティブカーネル - Ascendアーキテクチャのキューブ/ベクター/DMAエンジン向けに特別に設計されたカスタムINT8 GEMM実装と融合演算子が、選択された並列化戦略におけるパフォーマンス維持に貢献しています。
市場への影響
CloudMatrixシステムは、NPUシリコンからシステムソフトウェアまで、完全に中国国内製のAI計算ソリューションです。技術報告書は、中国の製造能力により、このシステムが量産化の可能性を秘めていると指摘しています。
DeepSeekモデルがコミュニティでの採用のためにオープンウェイトを提供しつつ、プライベートな導入向けに商用アドオンを提供する戦略は、報告書が述べる「パラメータ数そのものよりもアプリケーションの価値に焦点を当てる」という北京の政策方針と一致しています。
大規模AIモデルを扱う組織にとって、このシステムは推論に対する費用対効果の高いアプローチを提供する可能性があります。特に、モデル蒸留や広範なラベリング操作なしの自己学習のようなデータ集約的なタスクにおいて有用です。
将来の発展
技術文書は、より高密度な光インターコネクトやより洗練されたスケジューリングアルゴリズムなど、将来のいくつかの開発分野を概説しています。著者らは、現在のアーキテクチャは報告書で詳述されている384 NPUの実装よりもさらに大規模な構成にまで拡張できる可能性を示唆しています。
注:この分析は、提供された技術文書の情報に基づいています。潜在的な投資家は、投資判断を行う前に、自身で調査を行い、ファイナンシャルアドバイザーに相談してください。