NVIDIA、物理を理解し自然言語でロボットを制御可能なAIモデル「Cosmos-Reason1」をリリース

NVIDIA、Cosmos-Reason1を発表：物理的理解と身体的推論を繋ぐ画期的なAIモデル

NVIDIAの研究者らは、人工知能の物理世界を理解し推論する能力において、飛躍的な進歩を示す画期的なマルチモーダル大規模言語モデル群「Cosmos-Reason1」を発表しました。7Bおよび56Bのパラメーターバージョンが利用可能なこの新しいAIモデルは、AIシステムに物理的な常識と身体的推論能力を付与するように特別に設計されており、ロボット工学、自動運転車、拡張現実アプリケーションに革命をもたらす可能性があります。

物理AIのための包括的フレームワーク

NVIDIAの研究チームは、AIが長年抱える課題の一つである大規模言語モデルにおける物理的基礎付けの欠如に取り組む革新的な体系的アプローチを通じてCosmos-Reason1を開発しました。この開発プロセスには、包括的なオントロジーの作成、大規模なデータセットのキュレーション、そして言語ベースのAIと現実世界の物理的相互作用との間のギャップを埋めるための特化したトレーニング手法の実装が含まれていました。

研究者らは、アプローチを体系化するために2つの異なるオントロジーを構築しました。1つ目は、物理的な常識を空間、時間、基礎物理学の3つの主要カテゴリに分類し、さらに16の特定のサブカテゴリに細分化した階層型オントロジーです。2つ目は、身体的推論のための2次元オントロジーで、5つの異なるエージェントタイプにわたる4つの主要な能力（感覚処理、効果予測、制約遵守、相互作用からの学習）をマッピングします。

これらのモデルを効果的にトレーニングするために、チームは視覚的質問応答タスク、思考連鎖推論の軌跡、直感的な物理パズルを含む約400万組のビデオとテキストのペアをキュレートしました。トレーニングプロセスは2つの異なる段階で構成されました。まず、ドメイン固有のビデオ推論データに対する物理AI教師ありファインチューニングを行い、次に多肢選択式質問応答から導き出されたルールベースの検証可能な報酬を使用した物理AI強化学習を行いました。

この開発は、1,214問の身体的推論多肢選択問題と604問の物理的常識問題からなる新しいベンチマークの作成によって結実しました。これらのベンチマークで評価された結果、Cosmos-Reason1は優れた性能を示し、GPT-4oやQwen2.5-VLを含む強力なベースラインモデルを、身体的推論タスクで10～15ポイント、常識推論タスクで2～7ポイント上回りました。

主なポイント：AIの物理的知能の変革

Cosmos-Reason1の発表は、人工知能開発におけるいくつかの重要な成果を示しています。このモデルは、ターゲットを絞ったデータキュレーションと強化学習技術を通じて、大規模言語モデルが現実世界の物理学に効果的に基づくことができることを実証しています。これは、基本的な物理的推論タスクでしばしば苦戦する従来のAIアプローチからの根本的な転換を表しています。

この研究は、物理的常識と身体的推論に関する初の包括的なベンチマークを確立し、分野全体でより比較可能で再現性のある研究を可能にする標準化された評価方法を提供します。デュアルオントロジーは、研究者が物理的推論能力を分類および評価するための体系的なフレームワークを提供し、広範なAIコミュニティにおける共通語として機能する可能性があります。

スケーラブルなトレーニング手法、特に強化学習のためのルールベースの報酬の使用は、他の構造化された推論タスクにも一般化できる実践的なアプローチを示しています。56Bモデルに採用されたハイブリッドなMamba-MLP-Transformerアーキテクチャは、マルチモーダルアプリケーションにおける長いコンテキスト推論のための効率的なソリューションを提示しています。

特筆すべきは、NVIDIAがNVIDIAオープンモデルライセンスの下でコードと事前学習済みモデルの重みを公開することを約束している点です。これにより、より広範な採用が促進され、学術および商業環境全体での研究の進展が加速されます。

詳細分析：AIと産業への影響

Cosmos-Reason1の重要性は、その直接的な技術的成果をはるかに超えて、AIシステムが物理世界とどのように相互作用し、理解できるかにおけるパラダイムシフトを表しています。この研究は、物理的理解を必要とする現実世界のアプリケーションでAIが信頼性の高い性能を達成することを歴史的に妨げてきた根本的な限界に対処しています。

技術的な観点から見ると、この研究は、専用のトレーニングデータを通じて直感的な物理概念を明示的にターゲットにすることで、モデルの性能が大幅に向上することを示しています。「時間の矢」、「空間パズル」、「対象永続性」といった基本的な側面に焦点を当てることは、物理的相互作用に不可欠でありながら見過ごされがちな能力に対処するAIトレーニングへの新しいアプローチを意味します。

思考連鎖推論の軌跡を生成するために大規模言語モデルを使用し、その後に洗練と検証を行うという手法は、複雑な推論タスクのための高品質なトレーニングデータを作成するためのスケーラブルなアプローチを提示します。このモデルインザループのデータキュレーション戦略は、洗練された推論能力を必要とする様々なAIアプリケーションで新しい方法を刺激する可能性があります。

ビジネスへの影響は、複数の産業分野で特に説得力があります。ロボット工学と自動化の分野では、これらのモデルにより、サービスロボットや産業用ロボットが物理的な直感を向上させ、試行錯誤による学習を減らし、ピックアンドプレース操作、組み立てプロセス、自律ナビゲーションといった複雑なタスクにおける安全性を高めることができます。

自動運転車の開発においては、強化された意思決定能力が、悪天候、複雑な交通相互作用、予期せぬ道路状況などの動的なシナリオに対処する上で極めて重要となる可能性があります。物理的ダイナミクスに対する理解の向上は、より堅牢な予測および計画システムにつながるでしょう。

拡張現実およびデジタルツインアプリケーションでは、Cosmos-Reason1は、シミュレートされた環境と現実の環境の両方で物理的な相互作用を正確に推論し、ガイドするより自然な言語インターフェースを促進する可能性があります。この能力は、ユーザーが複雑な産業システムや仮想環境と相互作用する方法を変革する可能性があります。

資産管理および検査部門は、対象永続性と機械的アフォーダンスを理解する自動品質管理システムから恩恵を受け、製造および産業現場でのより信頼性が高く効率的な検査プロセスにつながる可能性があります。

ご存知でしたか：物理AIに関する興味深い事実

AIシステムにおける物理的常識の開発は、現在のテクノロジーにおける驚くべきギャップに対処するものです。印象的な言語能力にもかかわらず、多くの最先端のマルチモーダル大規模言語モデルは、ほとんどの人間が幼児期に習得する基本的な直感物理タスクにおいて、偶然レベルに近い性能を示しています。

この研究は、GPT-4oやその他の主要なマルチモーダルシステムのような既存の強力なモデルが、基本的な物理推論概念で著しく苦戦していることを明らかにし、特化したトレーニングアプローチの重要性を浮き彫りにしました。この発見は、言語的洗練が物理的理解に必ずしも結びつかないことを強調しています。

Cosmos-Reason1のトレーニングデータセットには、基本的な物理概念を教えるために設計された革新的な自己教師ありタスクが含まれています。これらには、オブジェクト間の関係性の理解をテストする空間パズル、時間的推論を評価する時間の矢の課題、視界から外れてもオブジェクトが存在し続けることをモデルが理解しているかを評価する対象永続性テストが含まれます。

ハイブリッドなMamba-MLP-Transformerアーキテクチャは、AIモデル設計における新たなトレンドを代表するもので、異なる計算アプローチを組み合わせて長いコンテキスト情報をより効率的に処理します。このアーキテクチャ革新は、マルチモーダルAIシステムの将来の発展に影響を与える可能性があります。

興味深いことに、この研究は、シンプルでルールベースの報酬による強化学習が、大規模言語モデルにおける特定の推論能力を効果的に強化できることを実証しています。このアプローチは、適切に設計されれば、比較的単純な報酬メカニズムを通じて複雑なAI能力を向上させることができることを示唆しています。

Cosmos-Reason1の許容的なライセンスの下でのオープンソース公開は、AI研究コミュニティへの大きな貢献であり、物理的推論能力を製品やサービスに統合しようとする企業の開発期間を加速させる可能性があります。このアプローチは、ますます専有的な性質を帯びる多くの高度なAI開発とは対照的です。

物理AI評価のための標準化されたベンチマークの作成は、分野における喫緊のニーズに対処するものです。これまで一貫した評価方法が不足していたため、異なるアプローチを比較し、進捗を体系的に追跡することが困難でした。これらのベンチマークは、身体化されたAIシステムの将来の研究開発にとって不可欠なツールとなる可能性があります。

Github Repo