DeepSeek 在 Hugging Face 平台正式公开了 DeepSeek-V4 系列的预览版本,一次性推出两款混合专家(MoE)语言模型:DeepSeek-V4-Pro 与 DeepSeek-V4-Flash。Pro 版拥有 1.6 万亿总参数,每次推理激活 490 亿参数;Flash 版则更为轻量,总参数 2840 亿,激活参数仅 130 亿。两款模型均原生支持高达 100 万 token 的上下文窗口,直接瞄准长文档处理、深度推理与复杂智能体任务等前沿场景。
值得注意的是,此次发布的 DeepSeek-V4-Pro-DSpark 并非全新模型,而是在原有检查点基础上附加了推测解码模块的推理优化版本,旨在进一步提升生成速度。官方在 Hugging Face 仓库中提供了最小推理示例,并引导开发者至 GitHub 的 DeepSpec 项目获取更多技术细节。
在架构层面,DeepSeek-V4 系列引入了多项关键升级。其设计的混合注意力机制融合了压缩稀疏注意力与重度压缩注意力,在 100 万 token 上下文设定下,Pro 版的单 token 推理计算量仅为前代 V3.2 的 27%,KV 缓存需求更降至 10%,大幅缓解了长序列推理的内存与算力压力。此外,模型还采用了流形约束超连接来增强残差连接的稳定性,并使用 Muon 优化器以加快收敛速度、提升训练稳健性。
训练数据方面,两款模型均在超过 32 万亿个多样化高质量 token 上进行了预训练,并经历了一套完整的后训练流程。该流程采用两阶段范式:先通过监督微调和基于 GRPO 的强化学习独立培养各领域专家能力,再通过在线策略蒸馏将不同领域的专长统一整合到单一模型中。
在推理能力上,DeepSeek-V4 提供了三种思考模式:快速直觉响应的 Non-think 模式、有意识逻辑分析的 Think 模式,以及将推理推向极限的 Think Max 模式。其中,Pro 版的 Max 模式在多项基准测试中显著提升了开源模型的知识能力边界。官方数据显示,DeepSeek-V4-Pro-Max 在 MMLU-Pro 上达到 87.5,在 GPQA Diamond 上达到 90.1,在 LiveCodeBench 上达到 93.5,在 Codeforces 评分上达到 3206,在多项数学竞赛级评测中也表现强劲,与 Opus-4.6 Max、GPT-5.4 xHigh、Gemini-3.1-Pro High 等闭源前沿模型相比,差距已大幅缩小,甚至在部分指标上实现反超。
Flash 版的 Max 模式在获得更大思考预算时,推理性能可接近 Pro 版,但由于参数规模较小,在纯知识任务和最复杂的智能体工作流上仍略逊一筹。两款模型均以 MIT 许可证开放下载,支持 FP8 混合精度或 FP4 与 FP8 混合精度格式,方便社区在 Hugging Face 和 ModelScope 上直接获取。
此次 V4 系列的发布,延续了 DeepSeek 以高效架构挑战极限性能的技术路线。百万 token 上下文与极低的 KV 缓存占用,意味着在相同硬件条件下可支撑更复杂的应用,对 AI 基础设施层的成本结构产生直接影响。同时,Pro-Max 在编程、推理与智能体任务上逼近甚至超越头部闭源模型的表现,也进一步模糊了开源与闭源模型之间的能力界限,可能加速企业级 AI 应用向开源方案迁移的趋势。