OpenAIがSora 2 AI動画生成ツールを発表:音声同期機能と新iOSソーシャルアプリを搭載するも、クリップの長さとアクセシビリティには賛否両論

著者
CTOL Editors - Lang Wang
14 分読み

物理学と想像力の出会い:OpenAIのSora 2がAI動画を新時代へ

新モデルは現実的な動き、同期されたサウンド、そしてOpenAIのより大きな野望を垣間見せる。しかし、短いクリップと限定的な公開は、これがまだ物語のすべてではないことを示している。

サンフランシスコ—OpenAIはSora 2のベールを剥がしたばかりだが、早くもかつてテキストベースのAIを再構築した「GPT-3.5の瞬間」と比較されている。2024年2月にリリースされた最初のSoraは未来を示唆したが、基本的な部分でつまずいていた。物理法則は漫画的で、リップシンクは不安定だった。この新バージョンは状況を一変させる。バスケットボールがバックボードに当たり、あるべきように跳ね返る様子や、パドルボーダーがバックフリップを失敗して水しぶきの物理法則がそのまま再現される様子を見ることができる。アニメーションの唇とセリフもきれいに同期し、クリエイターが待ち望んでいた機能が実現した。

技術だけではない。OpenAIは「Cameos(カメオ)」という、ユーザーが自身の姿や声をAI生成されたクリップに組み込める機能を核としたiOSコンパニオンアプリをローンチしている。現時点では招待制で、米国とカナダに限定されているが、その戦略は明確だ。OpenAIはTikTokやYouTube Shortsと並ぶ、ショートフォームコンテンツ市場での地位を狙っている。

ご存知でしたか? Soraのリードであるビル・ピーブルズは、MITで学士号、UCバークレーで博士号を取得した若手研究者です。彼はNVIDIA、Adobe、Metaでインターンシップを経験した後、OpenAIに入社し、「Sora 2の作成」に向けた取り組みを主導しました。


プロダクションルールを書き換える可能性のある飛躍

では、Sora 2を本当に際立たせるものは何か? 3つの要素がある。同期されたオーディオ、より強固な物理法則、そして複数のショット間で一貫性を保つキャラクターだ。以前のモデルは、プロンプトを満たすためだけに現実を歪める悪い癖があった。物体がテレポートしたり、手がツールに溶け込んだり、人が不可能な宙返りをしたりするようなものだ。

今回、モデルは失敗を認識する。体操選手のアニメーションを依頼しても、完璧な演技を強制することはない。キャッチの失敗、着地のミス、衝突時に実際に伝達される運動量—それらすべてが自然に表現される。ある研究者はこう述べている。「Sora 2は、時に人が転んだり、物が完璧に振る舞わないことを理解しています。それが信憑性を生むのです。」

クリエイターにとって、これは大きな進歩だ。以前は、AI動画を制作するには、無音のクリップと別々のオーディオトラックをやりくりし、すべてを苦労して同期させる必要があった。Sora 2はそのワークフローをワンステップに集約する。ビデオ、対話、背景ノイズ、効果音をまとめて生成するのだ。また、映画のようなリアリズム、アニメ風の表現、あるいはその中間など、コマンドに応じてスタイルを切り替えることも可能で、その際も継続性は損なわれない。


実はデータエンジンであるソーシャルアプリ

華やかなデモの裏側を見ると、OpenAIの戦略がより明確になる。Cameosは、ユーザーが自分のクリップに登場する前に、自身の声と顔を録音することを要求する。表面的には、それは楽しいパーソナライゼーションだ。しかし実際には、アナリストたちはより深い意味を見ている。OpenAIは、将来のマルチモーダルモデル、つまり画像だけでなく物理世界の仕組みを理解するモデルを強化するために、ゴールドスタンダードの生体認証データを収集しているのだ。

ある戦略家はそれを率直にこうまとめた。「これは明日TikTokと競うことではありません。今後数年間の世界シミュレーションモデルの基盤を築くことなのです。」

アプリ自体は、受動的なスクロールよりも創作を推進する。「フィード哲学」は、リミックス可能なコンテンツ、自然言語によるレコメンデーション、そしてChatGPTと連携した保護者による利用制限を含む、若年層ユーザーに対するより厳格なルールを重視している。モデレーション層、デジタル透かし、公人をディープフェイクすることに対する規制も組み込まれている。ユーザーは自身のCameosに対するコントロールを保持し、自分の肖像が登場するすべてのクリップを追跡し、いつでも取り消すことができる。


素晴らしいデモ、しかし現実世界での限界

展示リールは一見すると目を奪われる。翼の渦を巻きながら氷の尖塔を縫うように進むドラゴンや、吹雪の中で探検家たちが叫ぶ声が嵐に完璧に同期している映像などだ。しかし、CTOL.digitalのチームがハイライトリールの裏側を見ると、綻びが見え始めた。

5秒未満の短いクリップは、720p、30fpsであれば良好に機能する。しかし、それを超えると綻びが生じる。キャラクターは表情を失い、オブジェクトは不自然にちらつき、幻想が崩れ始める。私たちのチームは「デッドアイ問題」という造語まで生み出した。あるテストクリップは、その欠陥がいかに明白であるかを示していた。猫を頭に乗せて森の中を素早く自転車で走る男性の映像だ。奇抜なディテールではなく、出力は中身がなく、その粗い部分が「AI生成」であることを叫んでいるかのようだった。別のチームメンバーが「水が崖の底なし穴に注ぎ込まれる」というケースをテストしたが、結果の動画は良くても静止画のようだった。

「10秒よりはるかに長い時間が必要だ。もう2025年なのだから」と、ある憤慨したチームメンバーは語った。他のメンバーは、フィードを圧倒する恐れのある、低労力で大量生産されたコンテンツの氾濫を「AIスロップ」と呼び、不満を表明した。


法的・倫理的な影

CTOL.digitalのチームは、著作権とプライバシーという2つの緊急の課題も指摘した。

著作権に関しては、Sora 2は驚くほど正確に人気のあるスタイルを模倣できる。これはファンにとっては魅力的だが、人間のアーティストにとっては、自分の作品がAIによる派生作品に埋もれてしまうのではないかという懸念から、心配の種となっている。

プライバシーに関しては、Cameosの生体認証データ取得が危険信号を点灯させた。レビュー担当者たちは、認証の強固さ、データの安全な保管方法、そしてコントロールが失敗した場合に何が起こり得るのかについて疑問を呈した。OpenAIはユーザーが完全な権利を保持し、いつでも取り消せると主張しているが、懸念は払拭されていない。


競合、コスト、そして市場圧力

OpenAIだけがこの分野にいるわけではない。GoogleのVeo 3は、すでにGeminiとAI Studioを通じて、オーディオ同期された最大8秒のビデオクリップを生成している。Veo 3の料金は1秒あたり約0.40ドル、高速ティアでは0.15ドルだ。これは、OpenAIがSora 2のクリップ料金を10秒あたり2ドル未満に抑えるよう圧力をかけるだろう。特にAPI利用の拡大を望むのであればなおさらだ。

課題は容量だけではなく、効率性にある。この種の作業のバックボーンとなるBlackwell GPUは、1基あたり30,000ドルから50,000ドルかかり、クラウドのレンタル料金も変動し続けている。

その間、Runway、Luma、Pikaといった既存のプレイヤーは、より長いテイク、編集タイムライン、権利管理ツールを備えたプロフェッショナルなワークフローにおいてすでに強固な地位を築いている。Sora 2を派手なショートクリップに、従来のツールをより長いプロジェクトの洗練と組み立てに使用するハイブリッドなワークフローが出現すると観測筋は予想している。


現場からの評価

CTOL.digitalの最終的な見解は? Sora 2は飛躍的な進歩だが、まだ不安定だ。物理法則は正しく感じられ、同期オーディオは恵みだ。しかし、より長いショット、人間の感情、そして精密なオブジェクトの扱いは、依然として課題を抱えている。

プライバシーに関する懸念や公開の制限が採用を遅らせる可能性があると彼らは警告した。キャラクターの一貫性とオーディオ統合は新たな創造の扉を開く一方で、だ。彼らの結論は、印象的な進歩ではあるが、洗練されたデモと日常的な制作の間にはまだギャップがあるというものだった。


投資家が注目するもの

アナリストたちは、いくつかの方向で波及効果を予想している。

短期的には、計算需要が伸び続けるNVIDIAやCoreWeaveのようなGPUクラウドプロバイダーが恩恵を受けるだろう。OpenAIとの強固な関係とAzureの力を持つMicrosoftも利益を得る可能性がある。iOSの流通と潜在的なオンデバイス処理のおかげで、Appleも恩恵を受けるかもしれない。

中期的には、AIコンテンツを検証するためのコンプライアンスツールが有望視される。EUのAI法と新たな米国の州法により、より多くのラベリング、透かし、検出が求められるようになるだろう。Sora 2を編集パイプライン(特にマルチショットの絵コンテやバージョン管理機能を持つもの)に組み込むクリエイティブソフトウェア企業は、収益性の高いニッチ市場を切り開く可能性がある。

リスクも残る。TikTokやYouTubeのようなショートフォーム動画の巨人たちは、エンゲージメントの圧力を感じるかもしれないが、彼らのネットワーク、支払いシステム、そして世界的なリーチは打ち破りがたい。Android版や収益化ツールがなければ、Sora 2がすぐに彼らを追い落とすことはないだろう。

参考までに、本日NVIDIAの株価は186.58ドルで取引を終え、4.74ドル上昇し、出来高は2億3600万株を超えた。これは、AIインフラへの投資家の信頼がまだ冷めていない兆候である。


アナリストは一般的な免責事項を強調している。過去の傾向が将来の結果を保証するものではない。投資を検討している人は、各自で調査を行い、認可されたアドバイザーに相談すべきである。

あなたも好きかもしれません

この記事は、 ニュース投稿のルールおよびガイドラインに基づき、ユーザーによって投稿されました。カバー写真は説明目的でコンピューターにより生成されたアートであり、事実を示すものではありません。この記事が著作権を侵害していると思われる場合は、 どうぞご遠慮なく弊社まで電子メールでご報告ください。皆様のご協力とご理解に感謝申し上げます。これにより、法令を遵守し、尊重あるコミュニティを維持することが可能となります。

ニュースレターに登録する

最新のエンタープライズビジネスとテクノロジー情報をお届けします。さらに、新しいサービスや提供物をいち早く独占的にチェックできます。

当社のウェブサイトでは、特定の機能を有効にし、より関連性の高い情報を提供し、お客様のウェブサイト上の体験を最適化するために、Cookieを使用しています。詳細については、 プライバシーポリシー および 利用規約 で確認できます。必須情報は 法的通知