提示工程退場，任務編排崛起：當 GPT-5.5 與 Copilot Agent 開始「自己會做事」，人類還要做什麼？

當大眾對「生成式 AI」寫詩畫圖的能力感到疲勞時，科技界正迎來一場真正的權力交接。2026 年 4 月 23 日，OpenAI 正式發布 GPT-5.5，以「用於真實工作的新層級智慧」（a new class of intelligence for real work）為核心訴求；而就在前一天（4 月 22 日），微軟宣布 Microsoft 365 Copilot 的代理人模式（Agent Mode）全面進入 GA（正式發布）階段，Satya Nadella 在社群媒體同步響應。

這是一個明確的訊號：AI 正式從「聊天對話框」走出來，接管了軟體系統的「執行緒」。

GPT-5.5：不只會「聊天」，更懂得如何「結案」

OpenAI 這次推出的 GPT-5.5，核心進化在於更強的代理執行能力（Agentic Execution）。根據日媒《Impress Watch》報導，GPT-5.5 的核心理念可以用「任せる知性」（委任式智能）形容：使用者不再需要精確的提示工程（Prompt Engineering），只需要下達模糊的終點指令（如：「幫我分析這份營收數據，找出異常並寫成報告存入雲端」），GPT-5.5 就能自動切換工具、撰寫程式、進行網頁調研，直到任務完成。

OpenAI 總裁 Greg Brockman 在發布會上表示：「這個模型真正特別之處，在於它能用更少的引導完成更多工作。它能看著一個不清楚的問題，自己判斷下一步該做什麼。」

效能基準測試：穩定性勝過極限性能

在針對開發者設計的 Terminal-Bench 2.0 測試中，GPT-5.5 取得了 82.7% 的成功率，大幅超越 GPT-5.4 的 75.1%，也小勝 Anthropic 尚未公開發布的 Claude Mythos Preview（82.0%，差距在誤差範圍內）。

在純代碼邏輯指標（SWE-Bench Pro）上，競爭格局更為複雜：GPT-5.5 達到 58.6%，但已公開發布的 Claude Opus 4.7 以 64.3% 居上，而 Anthropic 受限部署的 Claude Mythos Preview 更高達 77.8%。也就是說，在這項最接近真實 GitHub 問題解決的標竿測試上，GPT-5.5 目前排在已公開模型的第二位。

不過，在「工程落地」與「工具調用穩定性」的綜合表現上，GPT-5.5 被早期測試者評價為「最可靠的辦公室代理人」。對企業而言，一個能穩定完成 80% 瑣事且不產生幻覺的代理人，比一個智力驚人但會隨機發生失誤的聊天機器人更有價值。

微軟 Copilot Agent：賦予 AI「操作」辦公軟體的能力

如果說 GPT-5.5 是大腦，微軟的 Copilot Agent Mode 則是真正落地的肢體。微軟官方部落格於 2026 年 4 月 22 日宣布，Word、Excel、PowerPoint 中的 Agent Mode 已正式上線，微軟執行長 Satya Nadella 在 X（前 Twitter）同步發文：「Agent Mode 現已全面上線，並成為 Copilot 在 Word、Excel 與 PowerPoint 中的預設體驗。」

與過往「建議操作」不同，現在的 Agent 能直接「操作」應用程式：

Excel 自律分析：Agent 不再只是寫個公式，而是能主動進行數據探索、圖表構建，甚至連數據轉換（Data Transformation）都能一步到位。
Word 跨文件重組：能自動根據多份舊有文件內容，從白紙開始按照特定風格生成新草案。
Work IQ 脈絡整合：Work IQ 讀取使用者在 Microsoft 365 中的工作信號（如文件、郵件脈絡、日曆紀錄），讓 Copilot 能更快速理解需求、產出更貼合組織格式與習慣的成果，打造「越用越順手」的協作體驗。

提示工程已死，任務編排方興未艾

這波變革對專業技術人員的影響，在於工作方式的轉變。過去兩年，重點在於學習如何與 AI 進行對話；如今則逐漸轉向如何對 AI 進行授權與任務指派。

在任務流程上，也從以問答為主，轉向以完成任務為導向。過往 AI 需要使用者逐步引導，流程容易因中間偏差而中斷；而 GPT-5.5 與 Copilot Agent 的結合，重點在於提升整體流程的穩定性，使任務能夠持續推進至完成。

在安全層面，隨著 AI 取得操作電腦與讀寫檔案的權限，關注焦點也由內容過濾轉向權限邊界的控管。OpenAI 的評估顯示，GPT-5.5 的網路安全風險屬於「High」等級，代表其可能放大既有的威脅途徑，但它尚未具備創造全新攻擊方式的能力，因此未達「Critical」門檻。這也反映出其在企業部署時的風險控管範圍。