DeepSeek 在 HuggingFace 平臺正式公開了其 DeepSeek-V4 系列 的預覽版本,一次性推出了兩款基於混合專家架構(MoE)的大語言模型:DeepSeek-V4-ProDeepSeek-V4-Flash。這一發布迅速在 AI 社區引發關注,因為其不僅在參數規模上達到了新的量級,更在上下文長度和推理效率上做出了關鍵突破。

Pro 版本擁有 1.6T 總參數,但每次推理僅激活其中的 49B 參數;Flash 版本則更為輕量,總參數 284B,激活參數僅為 13B。兩款模型均原生支持高達 100 萬 token 的上下文窗口,這意味著它們能夠一次性處理像《三體》三部曲這樣體量的超長文本,為長文檔分析、代碼庫理解和複雜智能體工作流打開了新的可能性。

為了實現如此長的上下文支持,DeepSeek 團隊在架構上進行了多項創新。V4 系列引入了混合注意力機制,融合了壓縮稀疏注意力和重度壓縮注意力。官方技術報告顯示,在處理 100 萬 token 的上下文時,V4-Pro 的單 token 推理浮點運算量僅為前代 V3.2 的 27%,KV 緩存佔用更是降至 10%。這意味著長上下文推理的成本和速度得到了顯著優化,不再是僅停留在實驗室裡的昂貴功能。

此外,模型還採用了流形約束超連接來增強深層信號傳播的穩定性,並使用了 Muon 優化器 來加速收斂。訓練數據方面,兩款模型均在超過 32T token 的高質量多樣化數據上進行了預訓練,並經歷了一個兩階段的後訓練流程:先獨立培養特定領域的專家能力,再通過策略蒸餾將不同領域的專長融合進統一模型。

在基準評測中,開啟最強推理模式的 DeepSeek-V4-Pro-Max 展現出了與當前頂尖閉源模型正面競爭的實力。在知識類測試 MMLU-Pro 上,Pro-Max 取得了 87.5% 的成績,與 GPT-5.4 xHigh 的 87.5% 持平,超越了 Opus-4.6 Max 的 89.1% 和 Gemini-3.1-Pro High 的 91.0% 之外的多數對手。在 SimpleQA-Verified 上,Pro-Max 的 57.9% 雖然仍落後於 Gemini-3.1-Pro High 的 75.6%,但已大幅領先於其他多數模型。

代碼能力是本次 V4 系列的一大亮點。Pro-Max 在 Codeforces 編程競賽評分中達到 3206 分,在 LiveCodeBench 上取得 93.5% 的 Pass@1 成績,均處於第一梯隊。在數學推理方面,它在 HMMT 2026 Feb 上獲得 95.2%,在 IMOAnswerBench 上獲得 89.8%,顯示出強大的邏輯推導能力。

Flash 版本雖然在純知識任務和最複雜的智能體工作流上因參數規模較小而稍遜於 Pro 版,但在獲得更多思考時間預算時,其 Max 模式在推理任務上能夠接近 Pro 版的水平。這種靈活的多模式推理設計——從快速直覺響應的 Non-think,到有意識邏輯分析的 Think,再到推向極限的 Think Max——讓開發者可以根據任務複雜度和延遲要求進行精細權衡。

從產業視角看,DeepSeek V4 的發佈進一步加劇了 AI 模型層的競爭烈度。一個關鍵信號是,開源模型在知識、推理和代碼等核心能力上正在系統性地逼近甚至在某些指標上超越閉源商業模型。這可能會促使更多應用開發者選擇基於開源模型進行構建和微調,從而減少對單一閉源 API 的依賴,進而影響整個 AI 基礎設施和算力市場的需求分佈。同時,V4 系列在長上下文效率上的突破,也為需要處理海量私有數據的金融、法律、科研等垂直場景提供了更具成本效益的落地路徑。