FB 建議貼文

選取貼文複製成功(包含文章連結)!

提示工程退場,任務編排崛起:當 GPT-5.5 與 Copilot Agent 開始「自己會做事」,人類還要做什麼?

提示工程退場,任務編排崛起:當 GPT-5.5 與 Copilot Agent 開始「自己會做事」,人類還要做什麼?

當大眾對「生成式 AI」寫詩畫圖的能力感到疲勞時,科技界正迎來一場真正的權力交接。2026 年 4 月 23 日,OpenAI 正式發布 GPT-5.5,以「用於真實工作的新層級智慧」(a new class of intelligence for real work)為核心訴求;而就在前一天(4 月 22 日),微軟宣布 Microsoft 365 Copilot 的代理人模式(Agent Mode)全面進入 GA(正式發布)階段,Satya Nadella 在社群媒體同步響應。

這是一個明確的訊號:AI 正式從「聊天對話框」走出來,接管了軟體系統的「執行緒」。

GPT-5.5:不只會「聊天」,更懂得如何「結案」

OpenAI 這次推出的 GPT-5.5,核心進化在於更強的代理執行能力(Agentic Execution)。根據日媒《Impress Watch》報導,GPT-5.5 的核心理念可以用「任せる知性」(委任式智能)形容:使用者不再需要精確的提示工程(Prompt Engineering),只需要下達模糊的終點指令(如:「幫我分析這份營收數據,找出異常並寫成報告存入雲端」),GPT-5.5 就能自動切換工具、撰寫程式、進行網頁調研,直到任務完成。

OpenAI 總裁 Greg Brockman 在發布會上表示:「這個模型真正特別之處,在於它能用更少的引導完成更多工作。它能看著一個不清楚的問題,自己判斷下一步該做什麼。」

效能基準測試:穩定性勝過極限性能

在針對開發者設計的 Terminal-Bench 2.0 測試中,GPT-5.5 取得了 82.7% 的成功率,大幅超越 GPT-5.4 的 75.1%,也小勝 Anthropic 尚未公開發布的 Claude Mythos Preview(82.0%,差距在誤差範圍內)。

在純代碼邏輯指標(SWE-Bench Pro)上,競爭格局更為複雜:GPT-5.5 達到 58.6%,但已公開發布的 Claude Opus 4.7 以 64.3% 居上,而 Anthropic 受限部署的 Claude Mythos Preview 更高達 77.8%。也就是說,在這項最接近真實 GitHub 問題解決的標竿測試上,GPT-5.5 目前排在已公開模型的第二位

不過,在「工程落地」與「工具調用穩定性」的綜合表現上,GPT-5.5 被早期測試者評價為「最可靠的辦公室代理人」。對企業而言,一個能穩定完成 80% 瑣事且不產生幻覺的代理人,比一個智力驚人但會隨機發生失誤的聊天機器人更有價值。

微軟 Copilot Agent:賦予 AI「操作」辦公軟體的能力

如果說 GPT-5.5 是大腦,微軟的 Copilot Agent Mode 則是真正落地的肢體。微軟官方部落格於 2026 年 4 月 22 日宣布,Word、Excel、PowerPoint 中的 Agent Mode 已正式上線,微軟執行長 Satya Nadella 在 X(前 Twitter)同步發文:「Agent Mode 現已全面上線,並成為 Copilot 在 Word、Excel 與 PowerPoint 中的預設體驗。」

與過往「建議操作」不同,現在的 Agent 能直接「操作」應用程式:

  • Excel 自律分析:Agent 不再只是寫個公式,而是能主動進行數據探索、圖表構建,甚至連數據轉換(Data Transformation)都能一步到位。
  • Word 跨文件重組:能自動根據多份舊有文件內容,從白紙開始按照特定風格生成新草案。
  • Work IQ 脈絡整合:Work IQ 讀取使用者在 Microsoft 365 中的工作信號(如文件、郵件脈絡、日曆紀錄),讓 Copilot 能更快速理解需求、產出更貼合組織格式與習慣的成果,打造「越用越順手」的協作體驗。

提示工程已死,任務編排方興未艾

這波變革對專業技術人員的影響,在於工作方式的轉變。過去兩年,重點在於學習如何與 AI 進行對話;如今則逐漸轉向如何對 AI 進行授權與任務指派。

在任務流程上,也從以問答為主,轉向以完成任務為導向。過往 AI 需要使用者逐步引導,流程容易因中間偏差而中斷;而 GPT-5.5 與 Copilot Agent 的結合,重點在於提升整體流程的穩定性,使任務能夠持續推進至完成。

在安全層面,隨著 AI 取得操作電腦與讀寫檔案的權限,關注焦點也由內容過濾轉向權限邊界的控管。OpenAI 的評估顯示,GPT-5.5 的網路安全風險屬於「High」等級,代表其可能放大既有的威脅途徑,但它尚未具備創造全新攻擊方式的能力,因此未達「Critical」門檻。這也反映出其在企業部署時的風險控管範圍。

小結:白領工作的「代理人化」

我們應可以肯定,2026 年將被記錄為 AI 從「生成內容」正式跨入「執行任務」的元年。隨著 OpenAI 提供大腦,微軟提供工作場域,我們正處於一個「個人代理人(Personal Agent)」與「企業代理人(Enterprise Agent)」高度重疊的時代。

對於專業編輯與開發者而言,未來的戰場不在於誰能寫出最華麗的文字,而在於誰能最有效率地編排這些 AI 代理人,將複雜的技術產出流程徹底自動化。

參考來源:

 

小治
作者

《PC Home 電腦家庭》雜誌及 T 客邦網站編輯。負責遊戲類型新聞及評析、軟體應用教學及企劃撰寫、電腦相關周邊硬體測試,以及打雜…

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則