研究揭示大模型掌握稀有技能的關鍵機制

研究顯示小模型因頻繁任務覆蓋導致罕見任務學習失敗，增加訓練資料中目標任務頻率可替代模型擴充套件。

來源:The Decoder · 2026-06-07 03:45 ET · #模型

字號

語言模型的能力差異一直是AI產業關注的焦點。為何引數量更大的模型往往能掌握小模型無法學會的技能？一項由研究團隊開展的新實驗，通過對比引數量從400萬到40億不等的模型，揭示了背後的關鍵機制：災難性遺忘的強度與任務出現頻率直接相關。

在訓練過程中，模型會不斷接觸各類任務資料。研究發現，當某個任務在訓練資料中出現的頻率較低時，後續湧入的高頻任務資料會像潮水一樣，持續覆蓋和沖刷掉模型此前對稀有任務的學習成果。小模型由於引數容量有限，這種覆蓋效應尤為明顯，導致它們最終在稀有任務上表現失敗。而大模型憑藉更大的引數空間，能夠在一定程度上隔離和保留這些低頻知識，從而展現出更全面的能力。

這項研究的意義在於，它提供了一個無需盲目擴大模型規模的替代方案。研究人員指出，如果能在資料準備階段，刻意提高目標稀有任務在訓練資料中的重複頻率，即便引數量較小的模型，也能有效掌握這些技能。這意味著，在特定應用場景下，通過最佳化資料配比和訓練策略，企業或許可以用更小的模型、更低的算力成本，達到接近大模型的效果。

從AI產業的角度看，這一發現對基礎設施層和模型層均有潛在影響。當前，業界普遍通過堆疊引數和算力來追求模型能力的全面性，這直接推高了晶片採購、資料中心能耗和訓練成本。如果資料層面的策略最佳化能夠部分替代規模擴張，那麼對於算力需求的增速、以及相關硬體投資的回報預期，都可能產生重新評估的空間。這為那些資源有限、但專注於特定垂直領域的AI應用開發者，提供了一條更具成本效率的技術路徑。

研究揭示大模型掌握稀有技能的關鍵機制

延伸閱讀

相關深度報道

相關每日新聞