Google 推出 Gemini 2.5 Computer Use 能「動手操作」的 AI 模型，比誰都更會用電腦 | T客邦

半導體/電子產業 5G/網路 AI/大數據電動車/交通

加密貨幣/區塊鏈遊戲/電競雲端/資訊安全商業/金融

尖端科技 3C新品趨勢

抽獎/得獎公告體驗試玩活動課程講座

2025科技趨勢金獎

Google 推出 Gemini 2.5 Computer Use 能「動手操作」的 AI 模型，比誰都更會用電腦

Google 近日公開預覽全新 AI 模型 Gemini 2.5 Computer Use，主打一項突破性功能：不只看得懂畫面、理解需求，更能主動「動手操作 UI」，像人類一樣在網頁或 App 上點擊、輸入與滑動。
在多項基準測試中，這款模型表現超越 OpenAI 與 Anthropic 競品，更以超低延遲與高準確率成為目前業界表現最佳的「電腦代理人模型」。

操作 UI 像人一樣，AI 不再只「說」也能「做」

Gemini 2.5 Computer Use 模型建構在 Gemini 2.5 Pro 基礎上，具備強大的視覺理解與推理能力。它不靠 API，而是透過模擬人類的使用行為，來完成任務，例如：

在網頁上填寫與送出表單
拖曳畫面上的項目
操作選單、下拉選單、登入系統
甚至在遇到關鍵操作（如付款）時，主動請求使用者確認

這些操作過程會持續進行，直到任務完成為止，就像人類在執行工作流程一樣自然。

模型運作的關鍵流程如下：

開發者將使用者請求、螢幕截圖與過往動作歷史提供給模型
模型分析這些資料後回傳一個 UI 操作（如點擊、輸入）
客戶端執行該動作，並回傳最新畫面與網址給模型
循環開始下一輪，直到任務完成、錯誤發生，或用戶中止

效能測試：比 GPT、Claude 快又準

在 Browserbase 與 Google 自行執行的基準測試中，Gemini 2.5 Computer Use 的表現如下：

測試項目	Gemini 2.5	Claude Sonnet	OpenAI Computer Agent
Online-Mind2Web	70%+	約 61%	約 61.3%
WebVoyager	88.9%（自評） / 79.9%（第三方）	71.4%	約 61%
延遲時間（Latency）	約 225 秒	高於 250 秒	高於 300 秒

在「準確率 70% 以上」的前提下，Gemini 2.5 仍保持極低延遲
適合用於需要快速決策、連續操作的使用情境

安全設計：內建多層防護機制

Google 表示，這類能控制電腦的 AI 引入了新的風險（如惡意指令、詐騙網站、模型誤判），因此他們設計了三層安全機制：

模型內建安全訓練：防止濫用與潛在危害行為
推論階段即時風控（Per-step safety service）：每步操作都經過外部安全系統審核
開發者可自訂高風險行為是否需用戶確認（例如付款、登入等）

實際應用情境：從 UI 測試到自動助理都上線了

Google 自家與早期合作夥伴已經實際部署此模型，應用場景包括：

Firebase Testing Agent：自動執行 UI 測試，提高開發速度
Project Mariner：作為搜尋 AI 模式的一部分
Google 支付平台團隊：原先常出錯的 E2E 測試流程，透過模型修復成功率提升 60%
第三方如 Poke.com、Autotab：用於行動助理、資料擷取、自動排程等

目前模型已於 Google AI Studio 與 Vertex AI 開放開發者預覽，而用戶也可以透過 Browserbase 試用範例環境來嘗試看看。

#openai #gemini 2.5 #computer use

送【10個ChatGPT的好工具】電子書 Line brand icon

使用 Facebook 留言

謹慎發言，尊重彼此。按此展開留言規則