一个仅有30亿参数的中文语言模型,在数学和编程等硬核推理任务上,性能竟能与参数规模大200到333倍的顶尖模型正面交锋。新浪微博母公司新浪开源的VibeThinker-3B,正试图用实验结果向AI界传递一个信号:在可验证的结构化任务上,参数数量可能不再是瓶颈。
根据技术报告,VibeThinker-3B在AIME26等竞争性基准测试中,表现与DeepSeek V3.2和Kimi K2.5相当。在LiveCodeBench上,它击败了所有200亿参数以下的模型。更令人惊讶的是,在2026年4月底至5月底的LeetCode竞赛中,该模型首次尝试便解决了128道题中的123道,成绩超越了GPT-5.2、Qwen3-Max和Claude Opus 4.6,仅次于GPT-5.3-Codex和Gemini 3.1 Pro等少数模型。
这一成绩并非来自全新的模型架构,而是源于对阿里巴巴的Qwen2.5-Coder-3B基座模型进行精心设计的多阶段后训练。新浪的贡献完全集中在预训练之后的环节。流程首先通过监督微调让模型学习数学、编程和通用对话等广泛任务,随后针对复杂的多步推理问题进行定制化训练。接着,强化学习被依次应用于数学、编程和STEM领域,再通过自我蒸馏将各阶段技能整合进单一模型,最后一步则确保模型更好地遵循指令。
研究团队在微调阶段刻意构建了多样化的解题路径,强化学习则负责强化那些有效的路径。其核心论点在于,性能的提升源自训练方法、数据质量以及可靠的验证信号,而非单纯堆砌参数。
然而,VibeThinker-3B并非全能。在需要广博世界知识的GPQA-Diamond基准测试中,它远远落后于那些参数规模庞大的竞争对手。这引出了研究团队提出的核心假设——“参数压缩-覆盖假说”。该假说认为,不同的AI能力具有不同的结构,对参数数量的需求也截然不同。
像逐步解决数学问题这样的逻辑推理,依赖于搜索、条件检查、纠错和组合中间结果等少数反复出现的模式。这类技能可以被压缩进一个紧凑的模型核心中。但世界知识则完全不同,回答跨领域的开放性问题需要广泛的覆盖,这意味着需要大量参数来存储海量事实。
这一发现重新定义了小型模型的角色。研究人员认为,它们不再仅仅是服务于低成本推理的“廉价轻量版”,而是与传统扩展定律并行的一条独立研究路径。在解决方案结构清晰且可验证的任务上,参数规模已不再是瓶颈。
VibeThinker-3B的成果并非孤例。今年4月,阿里巴巴的Qwen3.6-27B在所有编程基准上超越了其参数规模大15倍的前代模型。阿布扎比推出的Falcon H1R 7B,据其制造商称,性能也达到了参数规模大2到7倍的模型水平。此前关于小模型在多步推理上存在逻辑缺陷的研究,曾普遍认为它们会触碰到能力天花板,而VibeThinker在可验证任务上的表现,恰恰挑战了这一假设。该模型已在Hugging Face和GitHub上完全开源。