新浪开源VibeThinker-3B：推理能力可压缩进小模型，但事实知识不行

新浪微博开源VibeThinker-3B，仅3B参数，数学与编程基准测试表现媲美DeepSeek V3.2等大模型。

一个仅有30亿参数的中文语言模型，在数学和编程等硬核推理任务上，性能竟能与参数规模大200到333倍的顶尖模型正面交锋。新浪微博母公司新浪开源的VibeThinker-3B，正试图用实验结果向AI界传递一个信号：在可验证的结构化任务上，参数数量可能不再是瓶颈。

根据技术报告，VibeThinker-3B在AIME26等竞争性基准测试中，表现与DeepSeek V3.2和Kimi K2.5相当。在LiveCodeBench上，它击败了所有200亿参数以下的模型。更令人惊讶的是，在2026年4月底至5月底的LeetCode竞赛中，该模型首次尝试便解决了128道题中的123道，成绩超越了GPT-5.2、Qwen3-Max和Claude Opus 4.6，仅次于GPT-5.3-Codex和Gemini 3.1 Pro等少数模型。

这一成绩并非来自全新的模型架构，而是源于对阿里巴巴的Qwen2.5-Coder-3B基座模型进行精心设计的多阶段后训练。新浪的贡献完全集中在预训练之后的环节。流程首先通过监督微调让模型学习数学、编程和通用对话等广泛任务，随后针对复杂的多步推理问题进行定制化训练。接着，强化学习被依次应用于数学、编程和STEM领域，再通过自我蒸馏将各阶段技能整合进单一模型，最后一步则确保模型更好地遵循指令。

研究团队在微调阶段刻意构建了多样化的解题路径，强化学习则负责强化那些有效的路径。其核心论点在于，性能的提升源自训练方法、数据质量以及可靠的验证信号，而非单纯堆砌参数。

然而，VibeThinker-3B并非全能。在需要广博世界知识的GPQA-Diamond基准测试中，它远远落后于那些参数规模庞大的竞争对手。这引出了研究团队提出的核心假设——“参数压缩-覆盖假说”。该假说认为，不同的AI能力具有不同的结构，对参数数量的需求也截然不同。

像逐步解决数学问题这样的逻辑推理，依赖于搜索、条件检查、纠错和组合中间结果等少数反复出现的模式。这类技能可以被压缩进一个紧凑的模型核心中。但世界知识则完全不同，回答跨领域的开放性问题需要广泛的覆盖，这意味着需要大量参数来存储海量事实。

这一发现重新定义了小型模型的角色。研究人员认为，它们不再仅仅是服务于低成本推理的“廉价轻量版”，而是与传统扩展定律并行的一条独立研究路径。在解决方案结构清晰且可验证的任务上，参数规模已不再是瓶颈。

VibeThinker-3B的成果并非孤例。今年4月，阿里巴巴的Qwen3.6-27B在所有编程基准上超越了其参数规模大15倍的前代模型。阿布扎比推出的Falcon H1R 7B，据其制造商称，性能也达到了参数规模大2到7倍的模型水平。此前关于小模型在多步推理上存在逻辑缺陷的研究，曾普遍认为它们会触碰到能力天花板，而VibeThinker在可验证任务上的表现，恰恰挑战了这一假设。该模型已在Hugging Face和GitHub上完全开源。

新浪开源VibeThinker-3B：推理能力可压缩进小模型，但事实知识不行

延伸阅读

相关深度报道

相关每日新闻