DeepSeek 在 HuggingFace 平台正式公开了其 DeepSeek-V4 系列 的预览版本,一次性推出了两款基于混合专家架构(MoE)的大语言模型:DeepSeek-V4-Pro 与 DeepSeek-V4-Flash。这一发布迅速在 AI 社区引发关注,因为其不仅在参数规模上达到了新的量级,更在上下文长度和推理效率上做出了关键突破。
Pro 版本拥有 1.6T 总参数,但每次推理仅激活其中的 49B 参数;Flash 版本则更为轻量,总参数 284B,激活参数仅为 13B。两款模型均原生支持高达 100 万 token 的上下文窗口,这意味着它们能够一次性处理像《三体》三部曲这样体量的超长文本,为长文档分析、代码库理解和复杂智能体工作流打开了新的可能性。
为了实现如此长的上下文支持,DeepSeek 团队在架构上进行了多项创新。V4 系列引入了混合注意力机制,融合了压缩稀疏注意力和重度压缩注意力。官方技术报告显示,在处理 100 万 token 的上下文时,V4-Pro 的单 token 推理浮点运算量仅为前代 V3.2 的 27%,KV 缓存占用更是降至 10%。这意味着长上下文推理的成本和速度得到了显著优化,不再是仅停留在实验室里的昂贵功能。
此外,模型还采用了流形约束超连接来增强深层信号传播的稳定性,并使用了 Muon 优化器 来加速收敛。训练数据方面,两款模型均在超过 32T token 的高质量多样化数据上进行了预训练,并经历了一个两阶段的后训练流程:先独立培养特定领域的专家能力,再通过策略蒸馏将不同领域的专长融合进统一模型。
在基准评测中,开启最强推理模式的 DeepSeek-V4-Pro-Max 展现出了与当前顶尖闭源模型正面竞争的实力。在知识类测试 MMLU-Pro 上,Pro-Max 取得了 87.5% 的成绩,与 GPT-5.4 xHigh 的 87.5% 持平,超越了 Opus-4.6 Max 的 89.1% 和 Gemini-3.1-Pro High 的 91.0% 之外的多数对手。在 SimpleQA-Verified 上,Pro-Max 的 57.9% 虽然仍落后于 Gemini-3.1-Pro High 的 75.6%,但已大幅领先于其他多数模型。
代码能力是本次 V4 系列的一大亮点。Pro-Max 在 Codeforces 编程竞赛评分中达到 3206 分,在 LiveCodeBench 上取得 93.5% 的 Pass@1 成绩,均处于第一梯队。在数学推理方面,它在 HMMT 2026 Feb 上获得 95.2%,在 IMOAnswerBench 上获得 89.8%,显示出强大的逻辑推导能力。
Flash 版本虽然在纯知识任务和最复杂的智能体工作流上因参数规模较小而稍逊于 Pro 版,但在获得更多思考时间预算时,其 Max 模式在推理任务上能够接近 Pro 版的水平。这种灵活的多模式推理设计——从快速直觉响应的 Non-think,到有意识逻辑分析的 Think,再到推向极限的 Think Max——让开发者可以根据任务复杂度和延迟要求进行精细权衡。
从产业视角看,DeepSeek V4 的发布进一步加剧了 AI 模型层的竞争烈度。一个关键信号是,开源模型在知识、推理和代码等核心能力上正在系统性地逼近甚至在某些指标上超越闭源商业模型。这可能会促使更多应用开发者选择基于开源模型进行构建和微调,从而减少对单一闭源 API 的依赖,进而影响整个 AI 基础设施和算力市场的需求分布。同时,V4 系列在长上下文效率上的突破,也为需要处理海量私有数据的金融、法律、科研等垂直场景提供了更具成本效益的落地路径。