メタ、実ピクセル生成なしで将来の動画シーンを予測する新AIモデル「DINO-World」を開発

著者
CTOL Editors - Lang Wang
7 分読み

AIの新時代到来:DINO-worldが動画予測を再定義する可能性

Meta FAIRの目立たない研究所で、静かなる革命が進行している。DINO-worldと名付けられた新しいモデルは、人工知能が動画に映し出される動的で絶え間なく変化する世界を解釈する方法を根本から変えようとしている。ピクセル単位で完璧なフレームを苦労して生成していた従来のモデルとは異なり、DINO-worldはより高次のレベルで機能する。つまり、生の視覚情報ではなく、抽象的で意味論的な特徴によって未来を予測するのだ。MetaのFAIRチームによる最近の論文で詳述されたこの画期的な進歩は、ロボット工学から自動運転に至るまで、様々な産業を再定義し、世界の時間的なリズムを理解するための、より効率的で賢明な道筋を提供する可能性がある。

Meta FAIR
Meta FAIR

特徴で未来を描く

その核心において、DINO-worldはDINOv2を活用している。DINOv2は、複雑な視覚情報をコンパクトで意味のあるパッチ埋め込みに抽出することで知られる、事前学習済みの画像エンコーダーだ。これらの埋め込み(シーンの内容を高レベルで要約したものと考えることができる)は、11億ものパラメーターを持つTransformerベースの予測器の「キャンバス」となる。6,000万本の未整理のウェブ動画で学習されたこのモデルは、ピクセル再構築という計算コストの高いタスクを回避し、これらの埋め込みが時間とともにどのように変化するかを予測することを学ぶ。この研究に詳しいあるAI研究者は、「まるで映画の全フレームをレンダリングするのではなく、プロットを予測するようなものだ」と語る。「細部に囚われることなく、本質を捉えることができる。」

このアプローチは、過去の観測に基づいて環境の将来の状態を予測するシステムである「世界モデル」における長年のボトルネックに対処する。COSMOSのような従来のモデルは、ピクセル精度の動画を生成するために最大120億のパラメーターと膨大な計算資源を必要とする。対照的に、DINO-worldはごく一部のリソースで同等またはそれ以上の結果を達成し、意味論的セグメンテーションのようなタスクにおいて、「現在の」特徴との性能差をわずか6%にまで縮めている。

実世界での多様なテスト

前方の道路を見る

DINO-worldの優れた能力は、都市景観における意味論的セグメンテーションや深度マップの予測といった、高密度な予測タスクで際立っている。CityscapesやKITTIなどのベンチマークでは、0.2秒および0.5秒先の予測において、ピクセルベースのモデルを凌駕する。自動運転にとって、この能力は革新的だ。歩行者の動きや車の軌道をこれほど正確に予測できるシステムは、安全性と意思決定を向上させる可能性がある。「このモデルの、高レベルな特徴を直接予測する能力は、シーン理解の向上に直結する」とある業界アナリストは述べ、リアルタイムの交通予測システムを強化する可能性を強調した。

物理法則を直感する

実用的な応用を超えて、DINO-worldはIntPhysやGRASPのようなベンチマークでテストされた直感的な物理学の分野でも優れている。ここでは、重力に逆らう物体のような、ありそうもないシナリオに遭遇した際の予測誤差である「驚き」を測定する。このモデルは、V-JEPAのような潜在空間ベースラインに匹敵またはそれを上回り、複雑なタスクでピクセルベースのシステムを凌駕する。これは、物理的な因果関係に対するより深い理解を示唆しており、ロボット工学やシミュレーションにとって極めて重要な資産となる。

ロボットを正確に操縦する

おそらく最も印象的なのは、DINO-worldの行動条件付きタスクへの適応能力だ。軽量な「アクションブロック」を追加し、小規模なラベル付きデータセットでファインチューニングすることで、このモデルはPushTやPointMazeのような環境における計画タスクで優れた性能を発揮する。多様な動画で事前学習を行うことで、ゼロから学習したモデルよりも成功率が10~12パーセントポイント高くなる。「ロボットにYouTube教育で先行スタートを切らせるようなものだ」と、強化学習の専門家は述べた。この効率性により、倉庫、家庭、そしてそれ以外の場所でのインテリジェントなロボットの導入が加速される可能性がある。

より効率的な知能への道

DINO-worldの洗練された点は、そのモジュール性にある。視覚的表現(DINOv2が担当)と時間的予測を分離することで、DINOv2の事前学習された物体やテクスチャの知識を活用しつつ、動的な予測のための機敏な予測器を学習する。この分離により計算コストが大幅に削減され、小規模な研究室や企業でも大規模な世界モデルへのアクセスが可能になる。回転位置

あなたも好きかもしれません

この記事は、 ニュース投稿のルールおよびガイドラインに基づき、ユーザーによって投稿されました。カバー写真は説明目的でコンピューターにより生成されたアートであり、事実を示すものではありません。この記事が著作権を侵害していると思われる場合は、 どうぞご遠慮なく弊社まで電子メールでご報告ください。皆様のご協力とご理解に感謝申し上げます。これにより、法令を遵守し、尊重あるコミュニティを維持することが可能となります。

ニュースレターに登録する

最新のエンタープライズビジネスとテクノロジー情報をお届けします。さらに、新しいサービスや提供物をいち早く独占的にチェックできます。

当社のウェブサイトでは、特定の機能を有効にし、より関連性の高い情報を提供し、お客様のウェブサイト上の体験を最適化するために、Cookieを使用しています。詳細については、 プライバシーポリシー および 利用規約 で確認できます。必須情報は 法的通知