DeepSeek 发布 V4 系列：Pro 版 1.6T 参数，支持百万 token 上下文

DeepSeek推出V4-Pro-DSpark，基于原模型附加投机解码模块，提升推理效率。

DeepSeek 在 Hugging Face 平台正式公开了 DeepSeek-V4 系列的预览版本，一次性推出两款混合专家（MoE）语言模型：DeepSeek-V4-Pro 与 DeepSeek-V4-Flash。Pro 版拥有 1.6 万亿总参数，每次推理激活 490 亿参数；Flash 版则更为轻量，总参数 2840 亿，激活参数仅 130 亿。两款模型均原生支持高达 100 万 token 的上下文窗口，直接瞄准长文档处理、深度推理与复杂智能体任务等前沿场景。

值得注意的是，此次发布的 DeepSeek-V4-Pro-DSpark 并非全新模型，而是在原有检查点基础上附加了推测解码模块的推理优化版本，旨在进一步提升生成速度。官方在 Hugging Face 仓库中提供了最小推理示例，并引导开发者至 GitHub 的 DeepSpec 项目获取更多技术细节。

在架构层面，DeepSeek-V4 系列引入了多项关键升级。其设计的混合注意力机制融合了压缩稀疏注意力与重度压缩注意力，在 100 万 token 上下文设定下，Pro 版的单 token 推理计算量仅为前代 V3.2 的 27%，KV 缓存需求更降至 10%，大幅缓解了长序列推理的内存与算力压力。此外，模型还采用了流形约束超连接来增强残差连接的稳定性，并使用 Muon 优化器以加快收敛速度、提升训练稳健性。

训练数据方面，两款模型均在超过 32 万亿个多样化高质量 token 上进行了预训练，并经历了一套完整的后训练流程。该流程采用两阶段范式：先通过监督微调和基于 GRPO 的强化学习独立培养各领域专家能力，再通过在线策略蒸馏将不同领域的专长统一整合到单一模型中。

在推理能力上，DeepSeek-V4 提供了三种思考模式：快速直觉响应的 Non-think 模式、有意识逻辑分析的 Think 模式，以及将推理推向极限的 Think Max 模式。其中，Pro 版的 Max 模式在多项基准测试中显著提升了开源模型的知识能力边界。官方数据显示，DeepSeek-V4-Pro-Max 在 MMLU-Pro 上达到 87.5，在 GPQA Diamond 上达到 90.1，在 LiveCodeBench 上达到 93.5，在 Codeforces 评分上达到 3206，在多项数学竞赛级评测中也表现强劲，与 Opus-4.6 Max、GPT-5.4 xHigh、Gemini-3.1-Pro High 等闭源前沿模型相比，差距已大幅缩小，甚至在部分指标上实现反超。

Flash 版的 Max 模式在获得更大思考预算时，推理性能可接近 Pro 版，但由于参数规模较小，在纯知识任务和最复杂的智能体工作流上仍略逊一筹。两款模型均以 MIT 许可证开放下载，支持 FP8 混合精度或 FP4 与 FP8 混合精度格式，方便社区在 Hugging Face 和 ModelScope 上直接获取。

此次 V4 系列的发布，延续了 DeepSeek 以高效架构挑战极限性能的技术路线。百万 token 上下文与极低的 KV 缓存占用，意味着在相同硬件条件下可支撑更复杂的应用，对 AI 基础设施层的成本结构产生直接影响。同时，Pro-Max 在编程、推理与智能体任务上逼近甚至超越头部闭源模型的表现，也进一步模糊了开源与闭源模型之间的能力界限，可能加速企业级 AI 应用向开源方案迁移的趋势。

DeepSeek 发布 V4 系列：Pro 版 1.6T 参数，支持百万 token 上下文

延伸阅读

相关深度报道

相关每日新闻