アリババの研究者、UI制御テストで首位に立つGUI-OwlおよびMobile-Agent-v3システムを発表

著者
CTOL Editors - Lang Wang
10 分読み

静かなる革命:機械が私たちのデジタル世界をナビゲートする方法を学ぶとき

中国・深圳発 — 8月20日、中国の人工知能(AI)研究所から、デジタルワークの経済学を再構築する可能性を秘めた、静かながらも注目すべき進展が発表された。「GUI-Owl」と「Mobile-Agent-v3」という2つのオープンソースシステムが公開され、コンピューターインターフェースの制御において、世界で最も高度な独自のAIモデルの一部を凌駕する能力を示したのだ。

GUI-Owlは、人々が日々使用するボタン、メニュー、スクリーンといったグラフィカルユーザーインターフェース(GUI)を理解し、操作するために特別に設計されたモデルである。汎用AIシステムとは異なり、スマートフォンでもデスクトップでも、あらゆるコンピューターインターフェースを「見て」操作できるように目的をもって構築された。

この基盤の上に構築されたMobile-Agent-v3は、複雑な多段階タスクを完了するために連携して機能する、専門エージェントの全体的なフレームワークとして機能する。その内部では、一部のエージェントが目標を計画し、他のエージェントが行動を実行し、さらに他のエージェントが進行状況を監視し、間違いを修正する。これらが一体となって、ほぼすべてのソフトウェアアプリケーションを処理できるデジタル労働力を形成する。

そのパフォーマンス数値は驚異的だ。AndroidWorldのベンチマークでは、Mobile-Agent-v3が73.3%の成功率を達成し、AnthropicのClaudeの44.8%を大きく引き離した。専用のGUI制御タスクでは、GUI-Owlの320億パラメーターモデルが**94.2%に達し、OpenAIのGPT-4oの53.5%**と比較して大幅な差を見せた。これらは小さな改善ではない。AIができることにおいて、大きな飛躍を意味している。

そしておそらく最も重要なのは、独自のシステムが常にオープンソースの代替品よりも優位に立つという、長年の仮定にこれらのシステムが異議を唱えている点だ。


破壊の数理

データはこの変化を明確に示している。Mobile-Agent-v3はAndroidのベンチマークで確立された独自のシステムを上回り、GUI-OwlはGUIタスクでGPT-4oのスコアをほぼ倍増させた。

ある研究者は「私たちは、専門アプリケーションにおけるクローズドソースの優位性の崩壊を目撃している。独自の開発が常に優れているという仮定は、解体されつつある」と述べている。

これは単なる技術的なマイルストーンではない。オープンソースシステムが独自のシステムを上回り続けることができれば、その波及効果はテクノロジーセクター全体の企業評価に影響を与えるだろう。独自のAI機能に基づいて築かれた「堀」(競争優位)で高く評価されてきた企業は、その優位性が急速に縮小するのを目にするかもしれない。


自己改善のアーキテクチャ

これらの進歩は何によって説明されるのか?このブレークスルーの中心にあるのは、新しい開発アプローチである。高価な人間が注釈を付けたデータ(主要なボトルネック)に大きく依存する代わりに、チームは自己進化型データ生成システムを構築した。

ここでは、Android、Ubuntu、macOS、Windowsが動作する仮想環境が、AIエージェントにタスクの実行、結果の評価、そして新しいトレーニングデータの自動生成を可能にする。各サイクルはパフォーマンスを向上させ、次ラウンドのためにより良いデータを生み出す――これはネットワーク成長を研究する経済学者にはお馴染みのフライホイール効果だ。

その経済性は深い。従来のAIトレーニングコストは、タスクが複雑になるにつれて増加する。しかし、自己改善によって、限界費用はゼロに近づき、能力は指数関数的に成長することができる。あるアナリストは「データのフライホイール効果は、AI経済学における新たなパラダイムを提示している」と指摘した。


動き出す市場

商業的機会は計り知れない。硬直したルールベースのシステムに長らく依存してきた企業オートメーションは、人間と同じくらい柔軟にワークフローを処理できる適応型AIエージェントによって変革される可能性がある。

  • 金融サービス: 照合、コンプライアンス、取引処理といった定型的なバックオフィス業務が自動化され、コストを推定**30〜40%**削減できる可能性がある。
  • ヘルスケア: 電子カルテの管理や保険関連の書類作成といった管理業務は、費用の3分の1近くを占める。GUIオートメーションは、その負担を大幅に軽減できるだろう。
  • その他のセクター: 顧客サービス、ソフトウェアテスト、さらには個人の生産性向上アプリも恩恵を受けるだろう。

ハードウェア加速効果

この変化はソフトウェアだけにとどまらない。GUIオートメーションは、リアルタイムのユーザーインタラクションに対応するために、高速でローカルな計算を必要とする。クラウドベースのAIとは異なり、遅延を許容できない。

これは、エッジコンピューティングと、コンピュータービジョンおよび高速推論に最適化された専用チップへの新たな需要を意味する。ある半導体アナリストは、「GUIオートメーションは、遅延制約があるため、エッジ展開が単に好ましいだけでなく、必要不可欠となるケースを示す」と指摘した。

初期の導入企業はすでに、これらのニーズをサポートするために専用ハードウェアに投資しており、AI加速におけるチップメーカーにとって大きな成長機会を示唆している。


未開の領域を航行する

前途は平坦ではないだろう。導入は業界や国によって異なり、特にAIと雇用に関する規制がまだ進化途上にある地域では顕著になるだろう。

大規模な展開には、かなりの技術統合も必要となる。モデル自体は強力であるものの、それらを企業オペレーションに組み込むのは複雑なタスクであり、多くの場合、強力な社内能力を持つ組織に限られる。

また、オープンソースはイノベーションを加速させる一方で、企業が通常求める長期的なサポートに関して疑問を投げかける。商用ベンダーが介入してくる可能性が高いが、そのようなサービスの市場構造はまだ不明確である。


市場参加者の戦略的ポジショニング

勝者となるのは、コア技術の生みの親ではなく、それを実用化する者たちかもしれない。システムインテグレーター、エンタープライズソフトウェアプロバイダー、マネージドサービス企業は皆、企業がこれらの新しい機能を導入するのを支援することで利益を得ることができるだろう。

一方で、従来のビジネスプロセスアウトソーシング(BPO)や手動データ入力といった労働集約的なプロセスに依存する企業は、潜在的な破壊に直面し、そのビジネスモデルを再考する必要があるだろう。

半導体メーカーもまた、賛否両論の見通しに直面している。エッジおよび推論に特化したチップの供給者は繁栄するかもしれないが、汎用ハードウェアの生産者は、専門的な要件から圧力を感じる可能性がある。

投資家にとって、メッセージは明確だ。専門的なAIは、もはや独自のプレーヤーに独占されるものではないかもしれない。高い統合可能性を持つオープンソースプラットフォームが、より良い賭けとなる可能性がある。


優れたパフォーマンスとオープンソースのアクセシビリティを兼ね備えたGUIオートメーションの台頭は、パラダイムシフトとなる可能性を秘めた瞬間を示している。これは、産業、経済、そしてグローバル市場にわたる影響を及ぼし、今後数ヶ月、数年にわたり密接な注目を要する進展である。


*この分析は、現在の技術および市場状況を反映したものです。投資判断は、十分なデューデリジェンスと専門家のアドバイスに基づいて行われるべきです。AIシステムの過去のパフォーマンスは、将来の結果を予測するものではありません。

あなたも好きかもしれません

この記事は、 ニュース投稿のルールおよびガイドラインに基づき、ユーザーによって投稿されました。カバー写真は説明目的でコンピューターにより生成されたアートであり、事実を示すものではありません。この記事が著作権を侵害していると思われる場合は、 どうぞご遠慮なく弊社まで電子メールでご報告ください。皆様のご協力とご理解に感謝申し上げます。これにより、法令を遵守し、尊重あるコミュニティを維持することが可能となります。

ニュースレターに登録する

最新のエンタープライズビジネスとテクノロジー情報をお届けします。さらに、新しいサービスや提供物をいち早く独占的にチェックできます。

当社のウェブサイトでは、特定の機能を有効にし、より関連性の高い情報を提供し、お客様のウェブサイト上の体験を最適化するために、Cookieを使用しています。詳細については、 プライバシーポリシー および 利用規約 で確認できます。必須情報は 法的通知