Google、人間のようにウェブを閲覧できるAIを発表—しかし、真の仕事は始まったばかりだ

Google、人間のようにウェブを閲覧できるAIを発表 — しかし、本当の仕事はまだ始まったばかり

Gemini 2.5 コンピューター使用モデルは、デジタル上の雑務をAIが引き継ぐことを目指すが、初期ユーザーは不具合に備えるべきだ。

Google DeepMindは、人間と同じようにウェブサイトやアプリをクリック、入力、スクロールできるAIシステムであるGemini 2.5 コンピューター使用モデルを展開した。現在Gemini APIを通じてプレビュー版が利用可能なこのモデルは、多くの人が嫌がる反復的なデジタル作業を処理できる実用的なアシスタントへとAIを変える大きな一歩となる。

その仕組みは以下の通りだ。AIは画面のスクリーンショットを確認し、ユーザーが何を求めているかを解釈し、自身の以前の動作を確認した後、次に何をすべきか（ボタンをクリックするか、フォームに記入するか、さらにスクロールするか）を決定する。各アクションの後、別のスクリーンショットを取得し、タスクが完了するかモデルが動けなくなるまでこのループが続く。

Googleによると、Gemini 2.5は平均タスク実行時間約225秒で70%以上の精度を達成している。Online-Mind2Web、WebVoyager、AndroidWorldといった標準ベンチマークでは、競合を上回る結果を出している。Google社内では、各チームがユーザーインターフェースのテスト、Project Mariner、そして検索のAIモードにおける新機能にすでにこれを利用している。

一部の早期テスターは感銘を受けている。Googleのパイロットプログラムに参加しているAIアシスタントサービスであるPoke.comは、「Gemini 2.5 コンピューター使用は、これまで試した他のどのツールよりもはるかに優れており、競合ツールと比較して50%速く、より正確だ」と述べている。

とはいえ、誰もが手放しで喜んでいるわけではない。CTOL.digitalの自社エンジニアは、このシステムを「ブラウザの自動化とテストにおいて有望」だと評価しているが、「まだ初期段階で、ウェブ中心であり、タスクが複雑になると気難しい」とも指摘している。彼らの見解では、現時点では有用だが、真に変革をもたらすには速度と信頼性において大幅な改善が必要だという。

設計段階からの安全性 — それとも見せかけだけか？

Googleのモデルを際立たせる一つの点は、安全性へのアプローチ方法にある。すべてのアクションは実行前に安全サービスを通過し、ユーザーによる悪用、モデル自体が予期せぬ行動をとること、またはウェブサイトに隠された悪意あるプロンプトという3つの主要なリスクから保護される。

開発者は、購入、CAPTCHAの迂回、機密システムの制御といった危険なステップの前に、ユーザー確認を要求することも可能だ。後付けでフィルターを追加する競合他社とは異なり、Googleはこれらのセーフガードをモデル自体に組み込み、訓練を行った。

これは大きな利点となる可能性がある。当社の分析担当者は、「アクションごとのレビューとシステムレベルのポリシーが適切なデフォルト設定だ。これによりすべてのプロンプトインジェクションをブロックできるわけではないが、特に規制の厳しい業界では、企業の導入がはるかにスムーズになる」と指摘した。

もしGoogleがこのレビュー機能を独立したカスタマイズ可能なサービスへと変え、企業が独自のルールや承認プロセスを組み込めるようにすれば、このテクノロジー大手は真の市場優位性を得られる可能性がある。

できること — そしてできないこと

現在、Gemini 2.5はウェブブラウザで真価を発揮する。モバイルアプリでも有望だが、デスクトップレベルのオペレーティングシステム制御はまだ届かない範囲にある。それは意図的な設計である可能性もある。

「最も価値のある自動化の多くは、フォーム、管理コンソール、SaaSツールといったウェブログインの背後にある」と当社のチームは指摘している。「ウェブ上でのより高速で密接なループは、大部分のエンタープライズワークフローにおいて、煩雑なOS制御よりも優れている」。

最も適しているのは、ブラウザベースの自動化、UIテスト、構造化されたサイトナビゲーション、データ入力のようだ。実際、Googleの決済チームは、不安定なエンドツーエンドテストのバックアップとしてGemini 2.5を使用することで、手動での復旧時間を数日間短縮できたと述べている。

しかし、限界は明らかだ。タスクは依然として秒単位ではなく分単位を要するため、大量の顧客サポートには向かない。オープンエンドの問題やパズル状の課題では、パフォーマンスが低下する。そして日常的な使用においては、プレビュー版の動作は十分に安定しておらず、開発者には再試行と人間の監視が必要となる。

事業への影響とより大きな展望

当社の分析では、真の勝者は「AIブラウザ駆動」スタートアップではないと示唆されている。それらは本格的な企業というよりは、機能に近い。より大きな機会は、垂直統合型ソリューション、すなわち規制の厳しい業界向けの専門的なコパイロット、堅牢なテストインフラ、セキュリティツール、パフォーマンス監視プラットフォームの構築にある。

「永続性のある企業は、ネイティブAPI、フォールバックとしてのUI駆動、構造化されたワークフロー、組み込みの安全チェック、人間が使いやすいレビューツールを組み合わせるだろう」と当社のチームは説明した。「その競争優位性はエージェントだけでなく、プロセス知識、統合、そしてデータにある」。

競争は止まっていない。AnthropicはClaudeを通じて、より広範なデスクトップ自動化を推進している。オープンソースプロジェクトも増加しており、開発者に多くの選択肢を提供している。賢明な企業は、技術の成熟に伴いプロバイダーを交換できる柔軟なシステムを設計し、一つのベンダーに賭けることはしないだろう。

結論

Gemini 2.5 コンピューター使用は進歩であり、魔法ではない。より強力な安全機能と競争力のあるベンチマークにより、AIがデジタル世界をナビゲートする方法においてより高い基準を設定する。しかし、それは依然としてインフラであり、ルーティンワークを自動化するのに役立つものであって、どんなことでもこなせるSFのエージェントではない。

現時点では、企業は明確な成功指標とバックアップ計画を持つ、厳密に定義された高価値のワークフローにこれを適用すべきだ。技術はやがて高速化し、より賢くなるだろう。本当の決断は、早期に導入して今日の未熟な部分を受け入れるか、それともGoogleとその競合他社がフロンティアを押し進めることで確実に訪れる、よりスムーズな体験を待つかだ。

投資助言ではありません

Google、人間のようにウェブを閲覧できるAIを発表—しかし、真の仕事は始まったばかりだ

Google、人間のようにウェブを閲覧できるAIを発表 — しかし、本当の仕事はまだ始まったばかり

設計段階からの安全性 — それとも見せかけだけか？

できること — そしてできないこと

事業への影響とより大きな展望

結論

あなたも好きかもしれません

ニュースレターに登録する