DeepSeek 發佈 V4 系列：Pro 版 1.6T 參數，支持百萬 token 上下文

DeepSeek推出V4-Pro-DSpark，基於原模型附加投機解碼模塊，提升推理效率。

DeepSeek 在 Hugging Face 平臺正式公開了 DeepSeek-V4 系列的預覽版本，一次性推出兩款混合專家（MoE）語言模型：DeepSeek-V4-Pro 與 DeepSeek-V4-Flash。Pro 版擁有 1.6 萬億總參數，每次推理激活 490 億參數；Flash 版則更為輕量，總參數 2840 億，激活參數僅 130 億。兩款模型均原生支持高達 100 萬 token 的上下文窗口，直接瞄準長文檔處理、深度推理與複雜智能體任務等前沿場景。

值得注意的是，此次發佈的 DeepSeek-V4-Pro-DSpark 並非全新模型，而是在原有檢查點基礎上附加了推測解碼模塊的推理優化版本，旨在進一步提升生成速度。官方在 Hugging Face 倉庫中提供了最小推理示例，並引導開發者至 GitHub 的 DeepSpec 項目獲取更多技術細節。

在架構層面，DeepSeek-V4 系列引入了多項關鍵升級。其設計的混合注意力機制融合了壓縮稀疏注意力與重度壓縮注意力，在 100 萬 token 上下文設定下，Pro 版的單 token 推理計算量僅為前代 V3.2 的 27%，KV 緩存需求更降至 10%，大幅緩解了長序列推理的內存與算力壓力。此外，模型還採用了流形約束超連接來增強殘差連接的穩定性，並使用 Muon 優化器以加快收斂速度、提升訓練穩健性。

訓練數據方面，兩款模型均在超過 32 萬億個多樣化高質量 token 上進行了預訓練，並經歷了一套完整的後訓練流程。該流程採用兩階段範式：先通過監督微調和基於 GRPO 的強化學習獨立培養各領域專家能力，再通過在線策略蒸餾將不同領域的專長統一整合到單一模型中。

在推理能力上，DeepSeek-V4 提供了三種思考模式：快速直覺響應的 Non-think 模式、有意識邏輯分析的 Think 模式，以及將推理推向極限的 Think Max 模式。其中，Pro 版的 Max 模式在多項基準測試中顯著提升了開源模型的知識能力邊界。官方數據顯示，DeepSeek-V4-Pro-Max 在 MMLU-Pro 上達到 87.5，在 GPQA Diamond 上達到 90.1，在 LiveCodeBench 上達到 93.5，在 Codeforces 評分上達到 3206，在多項數學競賽級評測中也表現強勁，與 Opus-4.6 Max、GPT-5.4 xHigh、Gemini-3.1-Pro High 等閉源前沿模型相比，差距已大幅縮小，甚至在部分指標上實現反超。

Flash 版的 Max 模式在獲得更大思考預算時，推理性能可接近 Pro 版，但由於參數規模較小，在純知識任務和最複雜的智能體工作流上仍略遜一籌。兩款模型均以 MIT 許可證開放下載，支持 FP8 混合精度或 FP4 與 FP8 混合精度格式，方便社區在 Hugging Face 和 ModelScope 上直接獲取。

此次 V4 系列的發佈，延續了 DeepSeek 以高效架構挑戰極限性能的技術路線。百萬 token 上下文與極低的 KV 緩存佔用，意味著在相同硬件條件下可支撐更復雜的應用，對 AI 基礎設施層的成本結構產生直接影響。同時，Pro-Max 在編程、推理與智能體任務上逼近甚至超越頭部閉源模型的表現，也進一步模糊了開源與閉源模型之間的能力界限，可能加速企業級 AI 應用向開源方案遷移的趨勢。

DeepSeek 發佈 V4 系列：Pro 版 1.6T 參數，支持百萬 token 上下文

延伸閱讀

相關深度報道

相關每日新聞