DeepSeek 在 Hugging Face 平臺正式公開了 DeepSeek-V4 系列的預覽版本,一次性推出兩款混合專家(MoE)語言模型:DeepSeek-V4-Pro 與 DeepSeek-V4-Flash。Pro 版擁有 1.6 萬億總參數,每次推理激活 490 億參數;Flash 版則更為輕量,總參數 2840 億,激活參數僅 130 億。兩款模型均原生支持高達 100 萬 token 的上下文窗口,直接瞄準長文檔處理、深度推理與複雜智能體任務等前沿場景。
值得注意的是,此次發佈的 DeepSeek-V4-Pro-DSpark 並非全新模型,而是在原有檢查點基礎上附加了推測解碼模塊的推理優化版本,旨在進一步提升生成速度。官方在 Hugging Face 倉庫中提供了最小推理示例,並引導開發者至 GitHub 的 DeepSpec 項目獲取更多技術細節。
在架構層面,DeepSeek-V4 系列引入了多項關鍵升級。其設計的混合注意力機制融合了壓縮稀疏注意力與重度壓縮注意力,在 100 萬 token 上下文設定下,Pro 版的單 token 推理計算量僅為前代 V3.2 的 27%,KV 緩存需求更降至 10%,大幅緩解了長序列推理的內存與算力壓力。此外,模型還採用了流形約束超連接來增強殘差連接的穩定性,並使用 Muon 優化器以加快收斂速度、提升訓練穩健性。
訓練數據方面,兩款模型均在超過 32 萬億個多樣化高質量 token 上進行了預訓練,並經歷了一套完整的後訓練流程。該流程採用兩階段範式:先通過監督微調和基於 GRPO 的強化學習獨立培養各領域專家能力,再通過在線策略蒸餾將不同領域的專長統一整合到單一模型中。
在推理能力上,DeepSeek-V4 提供了三種思考模式:快速直覺響應的 Non-think 模式、有意識邏輯分析的 Think 模式,以及將推理推向極限的 Think Max 模式。其中,Pro 版的 Max 模式在多項基準測試中顯著提升了開源模型的知識能力邊界。官方數據顯示,DeepSeek-V4-Pro-Max 在 MMLU-Pro 上達到 87.5,在 GPQA Diamond 上達到 90.1,在 LiveCodeBench 上達到 93.5,在 Codeforces 評分上達到 3206,在多項數學競賽級評測中也表現強勁,與 Opus-4.6 Max、GPT-5.4 xHigh、Gemini-3.1-Pro High 等閉源前沿模型相比,差距已大幅縮小,甚至在部分指標上實現反超。
Flash 版的 Max 模式在獲得更大思考預算時,推理性能可接近 Pro 版,但由於參數規模較小,在純知識任務和最複雜的智能體工作流上仍略遜一籌。兩款模型均以 MIT 許可證開放下載,支持 FP8 混合精度或 FP4 與 FP8 混合精度格式,方便社區在 Hugging Face 和 ModelScope 上直接獲取。
此次 V4 系列的發佈,延續了 DeepSeek 以高效架構挑戰極限性能的技術路線。百萬 token 上下文與極低的 KV 緩存佔用,意味著在相同硬件條件下可支撐更復雜的應用,對 AI 基礎設施層的成本結構產生直接影響。同時,Pro-Max 在編程、推理與智能體任務上逼近甚至超越頭部閉源模型的表現,也進一步模糊了開源與閉源模型之間的能力界限,可能加速企業級 AI 應用向開源方案遷移的趨勢。