DeepSeek-V4 正式公測：100 萬超長上下文與 DSA 稀疏注意機制，程式開發能力直逼 Sonnet 4.5

在 AI 算力競賽中，長上下文處理一直是大型模型的技術瓶頸。當對話長度超過一定門檻時，多數模型會出現嚴重的「資訊遺忘」或推理效能大幅下滑。對於需要處理數萬行代碼或長篇法律文件的開發者與專業人士而言，這種記憶力的受限直接導致了工作流的中斷。

目前的痛點在於，維持長上下文通常需要消耗極高的顯存與運算資源。許多模型為了節省算力，被迫在 Token 維度進行暴力壓縮，結果犧牲了精細的邏輯檢索能力。DeepSeek 團隊意識到，若不能解決「記憶力」與「運算效率」的矛盾，AI 將永遠無法真正轉型為具備生產力的「智慧體」。

DSA 稀疏注意機制與 Reasoning Effort 參數的精準調度

來自中國的 DeepSeek 團隊近期發布了全新 V4 預覽版，引入了革命性的 DSA（DeepSeek Sparse Attention）稀疏注意機制。這項技術透過 Token 維度的智慧壓縮，成功在 1M（100 萬字）超長上下文下維持了穩定的推理效能，且對算力與顯存的需求比傳統方法大幅降低。這意味著模型能同時處理多份複雜文檔，而不會在長文本的海洋中迷失方向。

此外，V4 系列提供了 Flash 與 Pro 兩個版本，並新增了 `reasoning_effort` 參數，允許使用者根據需求調節思考強度（High/Max）。在 Agentic Coding 評測中，DeepSeek-V4-Pro 展現了接近 Sonnet 4.5 的思考模式，其程式開發能力已直逼矽谷頂尖模型。這種靈活的資源調配機制，配合 API 接口的同步更新，讓開發者能以更低的成本實現更複雜的自動化程式開發工作流。