訓練前沿大語言模型的電力消耗正成為AI產業無法迴避的硬成本。以OpenAI的GPT-4為例,據估算其訓練耗電約50吉瓦時,相當於5000個美國家庭一年的用電量。而自2023年以來,用於訓練尖端模型的計算資源只增不減,儘管具體電力數據難以獲取。在此背景下,荷蘭特溫特大學的研究團隊提出了一種不犧牲訓練速度的節能新思路——通過巧妙調整GPU時鐘頻率,最高可節省14%的能耗。

這項研究的核心在於重新審視GPU內部兩個時鐘的協同方式。現代GPU通常配備計算核心時鐘和內存時鐘,前者在芯片進行密集運算時保持高頻以確保速度,後者則負責數據存取。傳統上,當核心全力工作時,內存時鐘即使閒置也維持較高頻率,造成不必要的電力浪費。特溫特大學的博士候選人、論文第一作者Jeffrey Spaan及其合作者利用動態電壓頻率調節技術(DVFS),在更精細的時間尺度上對這兩個時鐘進行獨立調控:當計算核心繁忙時,適度降低內存時鐘頻率;當核心等待數據加載時,則放慢核心時鐘、提升內存頻率。

DVFS並非新技術,其歷史可追溯至20世紀90年代。但Spaan指出,此前其他研究者未能將其有效應用於大模型訓練,原因在於要麼導致計算速度大幅下降,要麼調節粒度太粗。以往方案通常在每次訓練迭代層面調整頻率——一次迭代包含前向傳播和反向傳播兩個階段,研究者會為每個階段設定一個固定頻率。而Spaan團隊將調節下沉到“內核”級別。GPU的工作負載被分解為眾多稱為內核的微小計算單元,例如單次向量乘法即可構成一個內核。在深度神經網絡的單層計算中,約包含40個內核。團隊針對每個內核動態調整時鐘頻率,從而挖掘出更大的節能空間。

實驗在一張Nvidia RTX 3080 Ti上訓練擁有13億參數的GPT-3-xl模型單層進行。結果顯示,這套精細的頻率調節方案實現了14%的能耗節省,而訓練時間僅延長了0.6%,幾乎不影響整體速度。Spaan解釋,GPU本身雖具備根據負載自動調節頻率的功能,但硬件缺乏對即將運行的內核的預判,只能基於實時猜測做出最佳努力,因此無法達到手動調節的節能效果。

不過,這一14%的節能數字是理想情況下的上限。研究者在實驗中逐一評估內核,未計入頻率切換本身所需的時間。實際應用中,切換速度的快慢高度依賴GPU硬件。Spaan表示,較新的硬件如英偉達Blackwell架構GPU擁有更快的頻率切換能力,有望充分實現理論節能潛力。團隊目前正在開發一款能針對特定工作負載自動實施最優頻率調節的工具,目標是讓該方法足夠吸引產業界採納。

從產業視角看,這項研究觸及AI基礎設施層的關鍵痛點。隨著模型參數規模持續膨脹,訓練能耗已成為制約算力擴張和成本控制的重要因素。若該技術能在數據中心大規模部署,不僅直接降低電力賬單,還可能減輕對電網的壓力,為AI產業的綠色轉型提供一條技術路徑。同時,它也反映出硬件與軟件協同優化的新方向——不是單純追求更高算力,而是在現有硬件上擠出隱藏效率。對於關注AI基礎設施和能源成本的投資者而言,此類能效突破可能影響數據中心運營商的資本開支結構,以及GPU供應商的技術迭代路線。