
Google 近日公開預覽全新 AI 模型 Gemini 2.5 Computer Use,主打一項突破性功能:不只看得懂畫面、理解需求,更能主動「動手操作 UI」,像人類一樣在網頁或 App 上點擊、輸入與滑動。
在多項基準測試中,這款模型表現超越 OpenAI 與 Anthropic 競品,更以超低延遲與高準確率成為目前業界表現最佳的「電腦代理人模型」。
操作 UI 像人一樣,AI 不再只「說」也能「做」
Gemini 2.5 Computer Use 模型建構在 Gemini 2.5 Pro 基礎上,具備強大的視覺理解與推理能力。它不靠 API,而是透過模擬人類的使用行為,來完成任務,例如:
-
在網頁上填寫與送出表單
-
拖曳畫面上的項目
-
操作選單、下拉選單、登入系統
-
甚至在遇到關鍵操作(如付款)時,主動請求使用者確認
這些操作過程會持續進行,直到任務完成為止,就像人類在執行工作流程一樣自然。
模型運作的關鍵流程如下:
-
開發者將使用者請求、螢幕截圖與過往動作歷史提供給模型
-
模型分析這些資料後回傳一個 UI 操作(如點擊、輸入)
-
客戶端執行該動作,並回傳最新畫面與網址給模型
-
循環開始下一輪,直到任務完成、錯誤發生,或用戶中止
效能測試:比 GPT、Claude 快又準
在 Browserbase 與 Google 自行執行的基準測試中,Gemini 2.5 Computer Use 的表現如下:
測試項目 | Gemini 2.5 | Claude Sonnet | OpenAI Computer Agent |
---|---|---|---|
Online-Mind2Web | 70%+ | 約 61% | 約 61.3% |
WebVoyager | 88.9%(自評) / 79.9%(第三方) | 71.4% | 約 61% |
延遲時間(Latency) | 約 225 秒 | 高於 250 秒 | 高於 300 秒 |
-
在「準確率 70% 以上」的前提下,Gemini 2.5 仍保持極低延遲
-
適合用於需要快速決策、連續操作的使用情境
安全設計:內建多層防護機制
Google 表示,這類能控制電腦的 AI 引入了新的風險(如惡意指令、詐騙網站、模型誤判),因此他們設計了三層安全機制:
-
模型內建安全訓練:防止濫用與潛在危害行為
-
推論階段即時風控(Per-step safety service):每步操作都經過外部安全系統審核
-
開發者可自訂高風險行為是否需用戶確認(例如付款、登入等)
實際應用情境:從 UI 測試到自動助理都上線了
Google 自家與早期合作夥伴已經實際部署此模型,應用場景包括:
-
Firebase Testing Agent:自動執行 UI 測試,提高開發速度
-
Project Mariner:作為搜尋 AI 模式的一部分
-
Google 支付平台團隊:原先常出錯的 E2E 測試流程,透過模型修復成功率提升 60%
-
第三方如 Poke.com、Autotab:用於行動助理、資料擷取、自動排程等
目前模型已於 Google AI Studio 與 Vertex AI 開放開發者預覽,而用戶也可以透過 Browserbase 試用範例環境來嘗試看看。
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!