FB 建議貼文

選取貼文複製成功(包含文章連結)!

DeepSeek-V4 正式公測:100 萬超長上下文與 DSA 稀疏注意機制,程式開發能力直逼 Sonnet 4.5

DeepSeek-V4 正式公測:100 萬超長上下文與 DSA 稀疏注意機制,程式開發能力直逼 Sonnet 4.5

在 AI 算力競賽中,長上下文處理一直是大型模型的技術瓶頸。當對話長度超過一定門檻時,多數模型會出現嚴重的「資訊遺忘」或推理效能大幅下滑。對於需要處理數萬行代碼或長篇法律文件的開發者與專業人士而言,這種記憶力的受限直接導致了工作流的中斷。

目前的痛點在於,維持長上下文通常需要消耗極高的顯存與運算資源。許多模型為了節省算力,被迫在 Token 維度進行暴力壓縮,結果犧牲了精細的邏輯檢索能力。DeepSeek 團隊意識到,若不能解決「記憶力」與「運算效率」的矛盾,AI 將永遠無法真正轉型為具備生產力的「智慧體」。

DSA 稀疏注意機制與 Reasoning Effort 參數的精準調度

來自中國的 DeepSeek 團隊近期發布了全新 V4 預覽版,引入了革命性的 DSA(DeepSeek Sparse Attention)稀疏注意機制。這項技術透過 Token 維度的智慧壓縮,成功在 1M(100 萬字)超長上下文下維持了穩定的推理效能,且對算力與顯存的需求比傳統方法大幅降低。這意味著模型能同時處理多份複雜文檔,而不會在長文本的海洋中迷失方向。

DeepSeek-V4 正式公測:100 萬超長上下文與 DSA 稀疏注意機制,程式開發能力直逼 Sonnet 4.5

此外,V4 系列提供了 Flash 與 Pro 兩個版本,並新增了 `reasoning_effort` 參數,允許使用者根據需求調節思考強度(High/Max)。在 Agentic Coding 評測中,DeepSeek-V4-Pro 展現了接近 Sonnet 4.5 的思考模式,其程式開發能力已直逼矽谷頂尖模型。這種靈活的資源調配機制,配合 API 接口的同步更新,讓開發者能以更低的成本實現更複雜的自動化程式開發工作流。

 

 

cnBeta
作者

cnBeta.COM(被網友簡稱為CB、cβ),官方自我定位「中文業界資訊站」,是一個提供IT相關新聞資訊、技術文章和評論的中文網站。其主要特色為遊客的匿名評論及線上互動,形成獨特的社群文化。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則