阿里巴巴旗下的 AI 研發團隊「千問」再度投下震撼彈,這次不玩參數競賽,而是針對程式設計師最在意的「推論成本」與「開發效率」,推出了專為智慧代理(AI Agent)打造的全新模型 Qwen3-Coder-Next。這款模型強調在極低的運算資源下,依然能展現出媲美巨型模型的編碼能力,讓本地開發環境跑 AI 助手不再是夢想。
不拚參數量拚效率,MoE 架構立大功
過去開發者若要在本地端執行高品質的 AI 程式碼助手,往往會受限於硬體記憶體不足或推論速度過慢。Qwen3-Coder-Next 這次聰明地選擇了「混合專家架構」(MoE, Mixture of Experts)。簡單來說,MoE 就像是一個專業團隊,每次只調動處理該問題最專精的小組,而不是動用整間公司的資源。
根據官方數據,這款模型以 Qwen3-Next-80B-A3B 為基礎,雖然啟用的參數量(Active Parameters)僅約 3B,但其實力卻相當驚人。在測試中,它的表現甚至能跟參數量大上 10 到 20 倍的傳統模型平起平坐,對於想要降低部署成本的企業或個人開發者來說,這無疑是一個極具吸引力的選擇。

真正的智慧代理:能從失敗中自我修復
這次 Qwen3-Coder-Next 的強大之處,不在於它會寫幾行程式碼,而是在於它「解決問題」的能力。研發團隊導入了大規模可執行任務的合成訓練,並結合強化學習(RL)。
這意味著模型在訓練時不只是看程式碼,而是真的在模擬環境中執行程式。當執行失敗時,模型會從環境的回饋中學習如何修正錯誤。這種「長程推論」與「工具使用」的能力,讓它在實際的軟體工程、品質保證(QA)以及網頁 UI/UX 設計等情境中,能像真正的助理一樣自主完成任務,而不是只會無腦生成片段代碼。

實測表現:跨級打怪,直逼大型開源模型
在程式設計界的「期末考」基準測試中,Qwen3-Coder-Next 交出了漂亮的成績單:
-
在 SWE-Bench Verified 測試中(這是一項檢驗模型修復真實 GitHub Bug 能力的指標),搭配 SWE-Agent 框架後達到了 70% 以上的成功率。
-
在極具挑戰性的 SWE-Bench-Pro 基準上,它依然維持著強大的競爭力。
-
與市場上其他專有或全注意力(Full Attention)模型相比,Qwen3-Coder-Next 在「效能與成本」的帕累托前沿(Pareto Front)上站穩了領先地位。
這類低推論成本模型的普及,代表未來我們在 VS Code 等編輯器中使用的補全插件將會更即時、更聰明。雖然目前在絕對效能上與一些頂尖的閉源模型(如 GPT-4 系列或 Claude 3.5 Sonnet)還有些微差距,但 Qwen3-Coder-Next 展現的自主工具使用與管理複雜任務的潛力,已經預示了下一個世代「AI 程式設計代理」的發展方向。
目前該模型已在 Hugging Face 與 ModelScope 開放權重,對於有興趣進行本地部署或垂直領域微調的團隊來說,現在正是進場測試的好時機。
- 延伸閱讀:Google CEO 皮查伊證實:Gemini 3 將於年底登場,主打更強「智慧代理」能力
- 延伸閱讀:微軟預告:Windows 正式啟動「智慧代理(AI agent)」新時代,靠 NPU 邁向更聰明的作業系統
- 延伸閱讀:AI 時代加速來臨!高通 CEO 預告 2028 推出 6G 設備、「AI 智慧代理人」將取代手機
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!