一個僅有30億參數的中文語言模型,在數學和編程等硬核推理任務上,性能竟能與參數規模大200到333倍的頂尖模型正面交鋒。新浪微博母公司新浪開源的VibeThinker-3B,正試圖用實驗結果向AI界傳遞一個信號:在可驗證的結構化任務上,參數數量可能不再是瓶頸。
根據技術報告,VibeThinker-3B在AIME26等競爭性基準測試中,表現與DeepSeek V3.2和Kimi K2.5相當。在LiveCodeBench上,它擊敗了所有200億參數以下的模型。更令人驚訝的是,在2026年4月底至5月底的LeetCode競賽中,該模型首次嘗試便解決了128道題中的123道,成績超越了GPT-5.2、Qwen3-Max和Claude Opus 4.6,僅次於GPT-5.3-Codex和Gemini 3.1 Pro等少數模型。
這一成績並非來自全新的模型架構,而是源於對阿里巴巴的Qwen2.5-Coder-3B基座模型進行精心設計的多階段後訓練。新浪的貢獻完全集中在預訓練之後的環節。流程首先通過監督微調讓模型學習數學、編程和通用對話等廣泛任務,隨後針對複雜的多步推理問題進行定製化訓練。接著,強化學習被依次應用於數學、編程和STEM領域,再通過自我蒸餾將各階段技能整合進單一模型,最後一步則確保模型更好地遵循指令。
研究團隊在微調階段刻意構建了多樣化的解題路徑,強化學習則負責強化那些有效的路徑。其核心論點在於,性能的提升源自訓練方法、數據質量以及可靠的驗證信號,而非單純堆砌參數。
然而,VibeThinker-3B並非全能。在需要廣博世界知識的GPQA-Diamond基準測試中,它遠遠落後於那些參數規模龐大的競爭對手。這引出了研究團隊提出的核心假設——“參數壓縮-覆蓋假說”。該假說認為,不同的AI能力具有不同的結構,對參數數量的需求也截然不同。
像逐步解決數學問題這樣的邏輯推理,依賴於搜索、條件檢查、糾錯和組合中間結果等少數反覆出現的模式。這類技能可以被壓縮進一個緊湊的模型核心中。但世界知識則完全不同,回答跨領域的開放性問題需要廣泛的覆蓋,這意味著需要大量參數來存儲海量事實。
這一發現重新定義了小型模型的角色。研究人員認為,它們不再僅僅是服務於低成本推理的“廉價輕量版”,而是與傳統擴展定律並行的一條獨立研究路徑。在解決方案結構清晰且可驗證的任務上,參數規模已不再是瓶頸。
VibeThinker-3B的成果並非孤例。今年4月,阿里巴巴的Qwen3.6-27B在所有編程基準上超越了其參數規模大15倍的前代模型。阿布扎比推出的Falcon H1R 7B,據其製造商稱,性能也達到了參數規模大2到7倍的模型水平。此前關於小模型在多步推理上存在邏輯缺陷的研究,曾普遍認為它們會觸碰到能力天花板,而VibeThinker在可驗證任務上的表現,恰恰挑戰了這一假設。該模型已在Hugging Face和GitHub上完全開源。