新浪開源VibeThinker-3B：推理能力可壓縮進小模型，但事實知識不行

新浪微博開源VibeThinker-3B，僅3B參數，數學與編程基準測試表現媲美DeepSeek V3.2等大模型。

一個僅有30億參數的中文語言模型，在數學和編程等硬核推理任務上，性能竟能與參數規模大200到333倍的頂尖模型正面交鋒。新浪微博母公司新浪開源的VibeThinker-3B，正試圖用實驗結果向AI界傳遞一個信號：在可驗證的結構化任務上，參數數量可能不再是瓶頸。

根據技術報告，VibeThinker-3B在AIME26等競爭性基準測試中，表現與DeepSeek V3.2和Kimi K2.5相當。在LiveCodeBench上，它擊敗了所有200億參數以下的模型。更令人驚訝的是，在2026年4月底至5月底的LeetCode競賽中，該模型首次嘗試便解決了128道題中的123道，成績超越了GPT-5.2、Qwen3-Max和Claude Opus 4.6，僅次於GPT-5.3-Codex和Gemini 3.1 Pro等少數模型。

這一成績並非來自全新的模型架構，而是源於對阿里巴巴的Qwen2.5-Coder-3B基座模型進行精心設計的多階段後訓練。新浪的貢獻完全集中在預訓練之後的環節。流程首先通過監督微調讓模型學習數學、編程和通用對話等廣泛任務，隨後針對複雜的多步推理問題進行定製化訓練。接著，強化學習被依次應用於數學、編程和STEM領域，再通過自我蒸餾將各階段技能整合進單一模型，最後一步則確保模型更好地遵循指令。

研究團隊在微調階段刻意構建了多樣化的解題路徑，強化學習則負責強化那些有效的路徑。其核心論點在於，性能的提升源自訓練方法、數據質量以及可靠的驗證信號，而非單純堆砌參數。

然而，VibeThinker-3B並非全能。在需要廣博世界知識的GPQA-Diamond基準測試中，它遠遠落後於那些參數規模龐大的競爭對手。這引出了研究團隊提出的核心假設——“參數壓縮-覆蓋假說”。該假說認為，不同的AI能力具有不同的結構，對參數數量的需求也截然不同。

像逐步解決數學問題這樣的邏輯推理，依賴於搜索、條件檢查、糾錯和組合中間結果等少數反覆出現的模式。這類技能可以被壓縮進一個緊湊的模型核心中。但世界知識則完全不同，回答跨領域的開放性問題需要廣泛的覆蓋，這意味著需要大量參數來存儲海量事實。

這一發現重新定義了小型模型的角色。研究人員認為，它們不再僅僅是服務於低成本推理的“廉價輕量版”，而是與傳統擴展定律並行的一條獨立研究路徑。在解決方案結構清晰且可驗證的任務上，參數規模已不再是瓶頸。

VibeThinker-3B的成果並非孤例。今年4月，阿里巴巴的Qwen3.6-27B在所有編程基準上超越了其參數規模大15倍的前代模型。阿布扎比推出的Falcon H1R 7B，據其製造商稱，性能也達到了參數規模大2到7倍的模型水平。此前關於小模型在多步推理上存在邏輯缺陷的研究，曾普遍認為它們會觸碰到能力天花板，而VibeThinker在可驗證任務上的表現，恰恰挑戰了這一假設。該模型已在Hugging Face和GitHub上完全開源。

新浪開源VibeThinker-3B：推理能力可壓縮進小模型，但事實知識不行

延伸閱讀

相關深度報道

相關每日新聞