2025.05.23 18:00

Claude 4 發布:目前最強AI工程師,可自主寫程式長達7小時

ADVERTISEMENT

Anthropic 最新釋出的 Claude 4 系列大型語言模型,包括旗艦版本 Claude Opus 4 與更注重性價比的 Claude Sonnet 4,正式登場。這兩款模型不僅在程式能力上達到重大突破,更進一步靠近了實現通用人工智慧(AGI)的目標。

大型程式庫、長時間工作都難不倒

在 SWE-bench 測試中,Opus 4 取得 72.5% 成績,Sonnet 4 也有 72.7%。這兩款模型已經可以處理數百萬行的複雜程式碼庫,甚至完成連續長達 7 小時的程式開發任務。Rakuten 與 Cognition AI 的實測指出,Opus 4 成功解決了許多過去其他模型無法處理的挑戰。

ADVERTISEMENT

不只是片段式的程式碼生成,它能根據自然語言需求,直接建構完整的應用架構,展現了從需求理解、撰寫、重構、到整合的全流程開發能力。

Claude 4 引入了「工具輔助的延伸思考」(Tool-assisted thinking),能在推理過程中靈活使用工具(如網頁搜尋),並支援超長上下文記憶。Opus 4 在 GPQA、MMMLU、AIME 等測試中表現亮眼,MMMLU 甚至拿下 87.4%。

ADVERTISEMENT

這種策略規劃與工具協作能力,意味著它具備初步的通用問題解決能力,大幅拓展了在真實場景中的應用潛力。

Claude Code 整合主流 IDE,讓 AI 主導開發流程

Claude 4 不僅可以糾正語法錯誤,更能針對整體架構提出優化建議,並具備「記憶力」,能保存與持續參照專案關鍵資訊。以此為基礎,它能像資深工程師一樣掌握專案上下文並做出判斷,這是未來智慧代理(Agent)不可或缺的核心能力。

ADVERTISEMENT

伴隨本次更新,Anthropic 推出專為開發者設計的 Claude Code 工具,並與 VS Code 與 JetBrains IDE 深度整合。開發者只需一段提示,即可完成整段流程。

例如在 Excalidraw 專案中,Claude Code 用 90 分鐘完成先前卡關的表格元件功能開發,涵蓋程式碼撰寫、測試、UI 整合與 PR 提交,全程無需人工干預。

ADVERTISEMENT

新 API 與工具,支援進階智能代理應用

Anthropic 同步更新 API,支援 Claude 在安全沙盒內執行 Python、透過 MCP 接入其他模型,並提供長達 60 分鐘的上下文快取與文件 API 等功能。這些能力與 Claude 4 系列整合,讓開發者能打造真正具備多步驟執行能力與系統協作能力的智慧代理。

Opus 4 每百萬 token 的輸入/輸出費用為 $15/$75 美元(約新台幣480/2400 元),Sonnet 4 為 $3/$15 美元(約新台幣96/480 元),價格與前代持平,Sonnet 4 更開放給免費使用者試用。

正走在讓 AI 實現 AGI 的第一步

Replit、Block 等企業都證實了 Claude 4 系列模型在大型專案與開發任務中的可靠性與效率。而 Anthropic CEO Dario Amodei 更強調,未來的智慧代理應具備「情境理解力」、「長任務處理能力」與「自我演進能力」,這次更新正是為這個未來鋪路。

當 AI 可以獨立創建軟體、優化流程並與人協作開發時,整個商業與科技世界也將迎來翻天覆地的轉變。

 

 

ADVERTISEMENT