FB 建議貼文

選取貼文複製成功(包含文章連結)!

Anthropic 推出 Opus 4.5 大模型:首款 SWE-Bench Verified 破 80 分,整合 Chrome 與 Excel 工具上線

Anthropic 推出 Opus 4.5 大模型:首款 SWE-Bench Verified 破 80 分,整合 Chrome 與 Excel 工具上線

Anthropic 日前正式發表旗艦級 AI 模型的最新版本 Opus 4.5,這也是旗下 Claude 4.5 系列的壓軸之作。繼九月推出 Sonnet 4.5、十月釋出 Haiku 4.5 後,Opus 4.5 不只在效能上再創新高,也正式加入了 Chrome 擴充功能與 Excel 插件支援,並同步開放更多用戶使用。

SWE-Bench 表現超車,打破 80% 分數門檻

Opus 4.5 在多項評測中表現亮眼,特別是在程式碼與工具使用方面進步顯著,例如 SWE-Bench、Terminal-bench、tau2-bench、MCP Atlas,以及通用推理測試如 ARC-AGI 2 與 GPQA Diamond 等。其中在 SWE-Bench Verified 測試中更成為首個突破 80% 成績的大型語言模型,技術實力獲得明確認可。

加入 Chrome、Excel 整合工具

除了模型本身,Anthropic 這次同步推出 Claude for ChromeClaude for Excel

  • Claude for Chrome:原為試點版,現開放所有 Max 訂閱用戶使用。

  • Claude for Excel:支援 Max、團隊與企業級用戶,將大語言模型直接導入表格分析與自動化處理流程中。

長上下文任務記憶力大升級

Opus 4.5 針對長文本處理能力做出重大優化,不僅上下文範圍更長,對「記住關鍵細節」的能力也顯著提升。Anthropic 產品負責人 Dianne Na Penn 表示:「光有大上下文視窗還不夠,模型要能記住重點才有價值。」

新版本導入的「無限對話模式」是眾多付費用戶敲碗已久的功能,當對話達到最大上下文時,系統可自動壓縮先前內容,不必中斷對話或要求使用者手動調整。

支援智能代理應用場景,子模型協作更順暢

Opus 4.5 也在「Agentic」場景(如多代理協作)表現出色,特別是在讓 Opus 作為主控模型指揮由 Haiku 模型驅動的子代理時,模型間的協同效率大幅提升。這類應用仰賴強大的工作記憶,而 Opus 4.5 在這部分有明顯優勢。

Penn 強調:「記憶力是 AI 智能的根本,不只要能解析龐大的程式碼庫、長篇技術文檔,還要懂得什麼時候回頭檢查細節。」

Opus 4.5 上線後,與 OpenAI 的 GPT 5.1(11 月 12 日發布)、以及 Google 最新 Gemini 3(11 月 18 日釋出)正面對決。AI 模型市場競爭持續升溫,Anthropic 能否以記憶力與工具整合勝出,值得持續觀察。

 

 

 

cnBeta
作者

cnBeta.COM(被網友簡稱為CB、cβ),官方自我定位「中文業界資訊站」,是一個提供IT相關新聞資訊、技術文章和評論的中文網站。其主要特色為遊客的匿名評論及線上互動,形成獨特的社群文化。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則