國際頂級機器學習會議ICML 2026近日公佈多項核心成果,其中清華大學自動化系團隊帶來的在線樣本篩選框架UDS,從根本上改寫了大模型監督微調(SFT)依賴“全量數據投餵”的傳統範式。該技術不再需要遍歷全部訓練數據集,而是巧妙地複用模型前向傳播中自然產生的logits信息,同步完成對單條樣本的訓練價值與批次內多樣性的雙重評判,自動剔除重複、低質數據,在保持模型精度的同時,將算力消耗壓縮近半。

這一突破直指當前AI產業的一大隱性痛點。行業長期默認SFT階段數據越多效果越好,但2026年的產業調研數據揭示了一個殘酷現實:國內大模型訓練的整體算力有效利用率不足五成,大量昂貴的GPU算力被消耗在冗餘、低信息量甚至帶有偏見的樣本上。全量訓練不僅推高了企業的GPU採購與雲算力租賃成本,還容易引發模型過擬合、放大認知偏見,尤其對金融、醫療、工業等垂直領域的中小企業而言,動輒數十萬條標註數據帶來的時間與資金壓力,已成為迭代模型的核心障礙。

過往業界並非沒有意識到智能篩選樣本的價值,曾湧現出MaxLoss、MaxGrad、GREATS等在線批次選擇方案,但它們普遍存在難以調和的短板。多數方法僅以樣本訓練難度為單一衡量標準,優先選取損失值高的樣本,卻完全忽略了樣本間的信息多樣性,導致批次內數據高度同質化,持續訓練反而疊加偏差。另一些方案則需要額外引入驗證集、外部參考模型,或進行多次反向傳播計算梯度,其額外開銷甚至超過全量訓練本身,難以在工業化場景中真正落地。行業始終缺少一個能兼顧效率、精度與輕量化的一體化篩選框架。

清華UDS框架的核心創新,在於跳出了傳統評估思路。它直接利用前向傳播生成的logits矩陣,在不增加額外計算開銷的前提下,從兩個維度對樣本進行打分。一方面,通過計算logits矩陣的核範數來量化單條文本自身的信息豐富度與訓練增益,即樣本的“內部重要性”;另一方面,採用隨機投影算法將樣本特徵壓縮至低維空間,並藉助FIFO內存緩存計算當前樣本與歷史訓練數據的距離,以此保障批次內樣本的差異化。兩套分數加權融合後篩選出最優樣本組合,整個過程不依賴任何外部數據集或第三方模型,且完美適配LoRA微調、全參數微調、長上下文推理等各類場景。

低維投影與緩存機制還巧妙化解了工程落地中的內存難題。若直接完整存儲原始logits向量,僅千級樣本就會佔用數十GB顯存,嚴重限制訓練集群的併發規模。UDS的隨機投影壓縮在幾乎不損失距離判斷精度的前提下,將內存開銷控制在極低水平,掃清了技術實用化的最後障礙。

研究團隊在Llama-3.1-8B通義千問Qwen-2.5-7B兩大主流開源基座上,於MMLU通用知識、ScienceQA科學問答、GSM8K數學推理、HumanEval代碼生成四大權威基準上完成了多輪對照實驗。消融實驗清晰表明,單獨依靠樣本效用分數或多樣性距離只能帶來小幅提升,而二者結合後模型綜合能力實現跨越式增長,驗證了雙重評判機制的互補價值。以國產Qwen-2.5-7B為例,採用UDS篩選樣本訓練後,MMLU準確率達到63.34%,較此前最優方案GREATS提升了5.15個百分點,在科學問答、數學、代碼評測上也全面領跑。同時,其訓練吞吐量顯著高於全量SFT模式,意味著在相同硬件條件下,單位時間內可處理更多有效樣本,實現了精度與速度的雙向提升。

UDS的泛化能力同樣經受了嚴苛檢驗。實驗覆蓋了8與16兩種批次大小、LoRA低秩微調與全參數微調、2048超長文本推理以及分佈外(OOD)泛化測試等多種工況,UDS在所有設定下均穩定優於全量訓練、隨機採樣和傳統loss篩選等基線方案。在與離線樣本篩選算法FisherSFT的對比中,同等樣本選取比例下,UDS在四大基準指標上全面領先,有力證明了在線動態篩選比事前離線過濾更貼合實時訓練的真實需求。

從產業視角審視,UDS的誕生恰逢AI競爭邏輯的關鍵轉折點。行業焦點正從單純比拼硬件算力規模,轉向追求單位算力產出的模型效能。在HBM高端存儲與GPU硬件成本持續高企的背景下,中小企業難以持續承擔全量數據集訓練的鉅額開銷。清華這套原生輕量化的篩選框架,無需改造底層算力硬件,僅通過算法優化就能砍掉近半數算力消耗,大幅降低了垂直行業定製模型的落地門檻,對開源大模型生態的商業化普及具有深遠意義。

對於國內開源產業而言,UDS提供了全新的技術抓手。通義千問、Llama系列作為國內企業微調的主流基座,UDS可直接無縫接入現有訓練流水線,無需重構數據處理架構。面向政務、製造、金融等領域的垂直服務商,企業無需囤積大規模高端算力集群,依靠少量GPU即可完成高質量模型微調,縮短產品迭代週期。對於算力資源有限的科研團隊和初創AI公司,該技術顯著降低了模型迭代的試錯成本,有望推動細分場景專用小模型的快速落地,進一步激活國內AI長尾創新的活力。

綜合來看,清華UDS在ICML 2026上呈現的樣本篩選方案,標誌著大模型監督微調正式告別“數據堆砌”的粗放階段。這套依託原生logits、兼顧樣本效用與多樣性、且額外開銷極低的在線篩選框架,既解決了全量訓練帶來的算力浪費與模型過擬合等行業共性痛點,又適配國內外主流開源基座與各類工業微調場景。隨著該技術逐步開源落地,大模型訓練將邁入“精準選樣本、高效練模型”的精細化時代,持續緩解全行業的算力成本壓力,加速人工智能技術在千行百業的低成本規模化落地。