FB 建議貼文

選取貼文複製成功(包含文章連結)!

Google 推出 Gemini 2.5 Computer Use 能「動手操作」的 AI 模型,比誰都更會用電腦

Google 推出 Gemini 2.5 Computer Use 能「動手操作」的 AI 模型,比誰都更會用電腦

Google 近日公開預覽全新 AI 模型 Gemini 2.5 Computer Use,主打一項突破性功能:不只看得懂畫面、理解需求,更能主動「動手操作 UI」,像人類一樣在網頁或 App 上點擊、輸入與滑動。
在多項基準測試中,這款模型表現超越 OpenAI 與 Anthropic 競品,更以超低延遲與高準確率成為目前業界表現最佳的「電腦代理人模型」。

操作 UI 像人一樣,AI 不再只「說」也能「做」

Gemini 2.5 Computer Use 模型建構在 Gemini 2.5 Pro 基礎上,具備強大的視覺理解與推理能力。它不靠 API,而是透過模擬人類的使用行為,來完成任務,例如:

  • 在網頁上填寫與送出表單

  • 拖曳畫面上的項目

  • 操作選單、下拉選單、登入系統

  • 甚至在遇到關鍵操作(如付款)時,主動請求使用者確認

這些操作過程會持續進行,直到任務完成為止,就像人類在執行工作流程一樣自然。

Google 推出 Gemini 2.5 Computer Use 能「動手操作」的 AI 模型,比誰都更會用電腦

 

模型運作的關鍵流程如下:

  1. 開發者將使用者請求、螢幕截圖與過往動作歷史提供給模型

  2. 模型分析這些資料後回傳一個 UI 操作(如點擊、輸入)

  3. 客戶端執行該動作,並回傳最新畫面與網址給模型

  4. 循環開始下一輪,直到任務完成、錯誤發生,或用戶中止

效能測試:比 GPT、Claude 快又準

在 Browserbase 與 Google 自行執行的基準測試中,Gemini 2.5 Computer Use 的表現如下:

測試項目 Gemini 2.5 Claude Sonnet OpenAI Computer Agent
Online-Mind2Web 70%+ 約 61% 約 61.3%
WebVoyager 88.9%(自評) / 79.9%(第三方) 71.4% 約 61%
延遲時間(Latency) 約 225 秒 高於 250 秒 高於 300 秒

 

  • 在「準確率 70% 以上」的前提下,Gemini 2.5 仍保持極低延遲

  • 適合用於需要快速決策、連續操作的使用情境

安全設計:內建多層防護機制

Google 表示,這類能控制電腦的 AI 引入了新的風險(如惡意指令、詐騙網站、模型誤判),因此他們設計了三層安全機制:

  1. 模型內建安全訓練:防止濫用與潛在危害行為

  2. 推論階段即時風控(Per-step safety service):每步操作都經過外部安全系統審核

  3. 開發者可自訂高風險行為是否需用戶確認(例如付款、登入等)

實際應用情境:從 UI 測試到自動助理都上線了

Google 自家與早期合作夥伴已經實際部署此模型,應用場景包括:

  • Firebase Testing Agent:自動執行 UI 測試,提高開發速度

  • Project Mariner:作為搜尋 AI 模式的一部分

  • Google 支付平台團隊:原先常出錯的 E2E 測試流程,透過模型修復成功率提升 60%

  • 第三方如 Poke.com、Autotab:用於行動助理、資料擷取、自動排程等

目前模型已於 Google AI StudioVertex AI 開放開發者預覽,而用戶也可以透過 Browserbase 試用範例環境來嘗試看看。

janus
作者

PC home雜誌、T客邦產業編輯,曾為多家科技雜誌撰寫專題文章,主要負責作業系統、軟體、電商、資安、A以及大數據、IT領域的取材以及報導,以及軟體相關教學報導。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則