CoreWeave、大規模GPUクラスターで言語モデルのAI学習速度記録を更新

著者
Lang Wang
14 分読み

CoreWeaveの記録的なAIインフラが新たな業界標準を確立

AIインフラストラクチャにおける画期的な進歩として、CoreWeave(ナスダック:CRWV)が大規模言語モデルのトレーニングにおいて前例のない性能を実証し、世界中の企業におけるAI開発の経済性とペースを根本から変える可能性を示しました。

27分の偉業:長年の技術的ブレークスルー

業界の専門家がクラウドコンピューティングにおける画期的な瞬間と評する中、CoreWeaveはNVIDIAおよびIBMとの提携により、大規模な4050億パラメータのLlama 3.1モデルをわずか27.3分で正常にトレーニングすることに成功しました。6月4日にMLPerf Training v5.0への提出で発表されたこの成果は、同等のシステムの2倍以上の速度を誇ります。

大手研究機関のAIシステムアーキテクトは、「これは単なる段階的な進歩ではない。可能性そのものにおける根本的な変化だ」と述べました。「以前は丸一日かかっていたトレーニングが、コーヒーが冷める前に終わるようになった。」

この技術的偉業は、CoreWeaveが2,496基のNVIDIA GB200 GPUを「NVL72」と呼ばれる特殊な構成で展開したことに基づいています。この構成では、72基のGPUが高帯域幅のNVLink接続を介してグループ化されます。このアーキテクチャは従来のGPUクラスターから大きく逸脱しており、大規模AIトレーニングを歴史的に悩ませてきた多くのボトルネックを解消しています。

数字の先にあるもの:これがAI開発にとってなぜ重要なのか

その影響は、業界ベンチマークにおける自慢話にとどまりません。最先端のモデルに取り組むAIラボや企業にとって、基盤モデルを30分未満でトレーニングできる能力は、開発サイクルを数週間から数日に変革します。

大規模AIデプロイメントに詳しい計算機科学の研究者は、「トレーニング時間が12時間から27分に短縮されると、すべてが変わる」と説明しました。「1日に何十もの実験を実行し、より多くの仮説を検証し、最終的に、まだ結果を待っている競合他社よりも速く、より良いモデルを構築できるようになる。」

CoreWeaveの成果は、その規模において特に注目に値します。彼らの提出では、他のどのクラウドプロバイダーのMLPerf提出よりも34倍も大きいクラスターが使用されました。これは、技術的能力だけでなく、高度な計算リソースへのアクセスが業界全体で依然として制約されている中で、最も要求の厳しいAIワークロードをサポートするための運用準備が整っていることを示しています。

経済的方程式:AIの総所有コスト(TCO)の再定義

性能向上は、直接的な経済的影響に結びつきます。業界分析によると、CoreWeaveのインフラストラクチャで4050億パラメータのモデルをトレーニングする場合、費用は約35万ドルから42万ドルとなり、これは他のプラットフォームでの同等の実行費用(60万ドルを超える場合がある)よりも約30~40%低いとのことです。

限られた資金で事業を行うAI特化型スタートアップにとって、このコスト差は野心的なプロジェクトが進行するか、あるいは理論的なものに留まるかを決定づける可能性があります。既存の企業にとっては、大規模なAIイニシアチブにおいて数百万ドルの潜在的な節約を意味します。

AIスタートアップを専門とするベンチャーキャピタル投資家は、「ここでの経済性は非常に魅力的だ」と指摘しました。「直接的なコスト削減と、より迅速な開発サイクルによる競争優位性の両方を考慮すると、CoreWeaveの提供するものは、市場の特定のセグメントにとって変革的なものとなる。」

偉業を支える技術的アーキテクチャ

CoreWeaveの記録的な性能は、いくつかの技術革新に基づいています。

GB200 Grace Blackwellスーパーチップは、NVIDIAの最新世代のAIアクセラレーターであり、強力なGPUコアとARMベースのGrace CPU、および特殊なデータ処理ユニットを単一パッケージに統合しています。

処理ユニット間でデータをやり取りするために別々のホストCPUを必要とする従来のGPUラックとは異なり、GB200の統合設計はこのボトルネックを解消します。NVL72構成は、72基のGPUを直接高速接続で統合されたドメインとすることで、この利点をさらに拡大しています。

大手研究大学のインフラストラクチャ専門家は、「このアーキテクチャが特別なのは、分散型AIトレーニングの常にアキレス腱であったデータ移動にどのように対処しているかだ」と説明しました。「CPUを直接統合し、NVLinkドメインを72基のGPUにまで拡張することで、通常、スケーリングの非効率性をもたらすいくつかの間接的な層を排除している。」

IBMの貢献については公開資料では詳細が少ないものの、熱管理、電力分配、および必要とされる膨大なデータフローを維持できるネットワーキングファブリックを含む、重要なシステムレベル設計を網羅していると考えられます。

市場における位置付け:CoreWeaveは競争環境の中でどこに位置するか

この成果は、CoreWeaveをAWS、Google Cloud、Microsoft Azureなどのハイパースケールクラウドプロバイダーに対する専門的な代替手段として位置付けます。これらのプロバイダーもすべて、AIワークロード向けに独自の高性能コンピューティングオプションを提供しています。

GoogleのTPU v5 Pod、AWSのEC2 P5インスタンス、そしてMicrosoftが最近発表したCryoPodは、最も近い競合製品ですが、MLPerf v5.0ベンチマークでこの規模で同等の性能を公に実証しているものはありません。

クラウドインフラストラクチャアナリストは、「AI計算能力の覇権争いは複数の側面を持っている」と述べました。「ハイパースケーラーは膨大なリソースを持っているが、CoreWeaveの焦点を絞ったアプローチとBlackwellアーキテクチャへの早期アクセスが、この特定のハイエンドセグメントにおいて一時的な優位性をもたらした。」

この優位性は一時的なものに過ぎない可能性があります。AWS、Google、Microsoftはいずれも同じ基盤となるNVIDIAテクノロジーと、それを展開するための膨大なリソースにアクセスできます。しかし、今後数四半期の重要な期間においては、CoreWeaveが超大規模LLMトレーニング能力において意味のあるリードを確立したように見えます。

今後の展望:課題と機会

CoreWeaveの成果は重要なマイルストーンである一方で、このテクノロジーを活用しようとする組織にはいくつかの課題が残っています。

  • GPU処理がこのレベルまで加速すると、データ準備とパイプラインの効率性がますます重要になります。データ供給におけるわずかなボトルネックでさえ、高速トレーニング能力の現実世界でのメリットを大幅に削減する可能性があります。
  • ソフトウェアの複雑性は依然として高く、数千のGPUにわたる分散トレーニングを完全に活用するには専門的な知識が必要です。多くの組織は、追加のサポートなしにこの規模で最適化するための社内人材を欠いています。
  • アクセシビリティとプロビジョニングのタイムラインが、実際にこの機能にアクセスできる組織の数を決定します。CoreWeaveは、数千のGPUを24時間以内に割り当てられる十分な在庫があると主張しており、これは一部のハイパースケーラーで報告されている数か月の待機リストとは対照的ですが、この規模での持続的な可用性はまだ証明されていません。

投資家の視点:AIインフラ市場への影響

AIインフラ分野を注視する投資家にとって、CoreWeaveの実証はいくつかの重要なトレンドを浮き彫りにしています。

  • 確立されたハイパースケーラーと並行して、専門のAIクラウドプロバイダーの市場が固まりつつあり、汎用クラウドコンピューティングと専門AIインフラストラクチャの二極化を示唆しています。
  • Cerebras、Graphcore、Habana Labsなどの競合他社が出現しているにもかかわらず、NVIDIAのAIアクセラレーターにおける支配的な地位は続いています。GB200アーキテクチャの性能優位性はNVIDIAの技術的リーダーシップを強化していますが、供給制約は依然として重要な市場要因です。
  • 超大規模AIトレーニング(1000億以上のパラメータモデル)の潜在市場規模は、年間20億ドルから30億ドルと推定されており、急速に成長しています。これは、より広範な500億ドルのAIインフラ市場の中で、最も利益率の高いセグメントの一つです。
  • 大規模なAIイニシアチブを持つ組織は、特定の高性能ワークロードのためにCoreWeaveのような専門プロバイダーを活用し、より広範なコンピューティングニーズのためにハイパースケーラーとの関係を維持するなど、マルチクラウド戦略を採用する必要があるかもしれません。

AI開発にとっての意味

CoreWeaveの実証は、私たちが基盤モデル開発のための「AI急行レーン」とも呼べる時代に入ったことを示唆しています。そこでは、最先端のインフラにアクセスできる組織にとって、長時間のトレーニング実行というボトルネックが大幅に軽減されます。

大規模モデルに取り組む企業のAIチームにとって、この新しい機能は特に1000億~5000億パラメータのモデルに関わるプロジェクトで真剣に検討する価値があります。たとえ一時的なアクセスであっても、このようなリソースは開発サイクルを大幅に加速させる可能性があります。

小規模な組織や研究チームは、日常業務には依然として従来のGPUクラスターの方が費用対効果が高いと感じるかもしれません。超大規模なリソースは、特定の節目や概念実証デモンストレーションのために予約されるでしょう。

新しいアクセラレーター技術やソフトウェアの最適化が定期的に登場し、インフラ環境が進化し続けるにつれて、AI開発のイノベーションのペースはさらに加速するでしょう。

現時点では、CoreWeaveの成果は可能性のベンチマークであり、AIインフラの競争がAIアルゴリズムそのものと同じくらいダイナミックで重要であることを示す兆候です。

あなたも好きかもしれません

この記事は、 ニュース投稿のルールおよびガイドラインに基づき、ユーザーによって投稿されました。カバー写真は説明目的でコンピューターにより生成されたアートであり、事実を示すものではありません。この記事が著作権を侵害していると思われる場合は、 どうぞご遠慮なく弊社まで電子メールでご報告ください。皆様のご協力とご理解に感謝申し上げます。これにより、法令を遵守し、尊重あるコミュニティを維持することが可能となります。

ニュースレターに登録する

最新のエンタープライズビジネスとテクノロジー情報をお届けします。さらに、新しいサービスや提供物をいち早く独占的にチェックできます。

当社のウェブサイトでは、特定の機能を有効にし、より関連性の高い情報を提供し、お客様のウェブサイト上の体験を最適化するために、Cookieを使用しています。詳細については、 プライバシーポリシー および 利用規約 で確認できます。必須情報は 法的通知