训练前沿大语言模型的电力消耗正成为AI产业无法回避的硬成本。以OpenAI的GPT-4为例,据估算其训练耗电约50吉瓦时,相当于5000个美国家庭一年的用电量。而自2023年以来,用于训练尖端模型的计算资源只增不减,尽管具体电力数据难以获取。在此背景下,荷兰特温特大学的研究团队提出了一种不牺牲训练速度的节能新思路——通过巧妙调整GPU时钟频率,最高可节省14%的能耗。

这项研究的核心在于重新审视GPU内部两个时钟的协同方式。现代GPU通常配备计算核心时钟和内存时钟,前者在芯片进行密集运算时保持高频以确保速度,后者则负责数据存取。传统上,当核心全力工作时,内存时钟即使闲置也维持较高频率,造成不必要的电力浪费。特温特大学的博士候选人、论文第一作者Jeffrey Spaan及其合作者利用动态电压频率调节技术(DVFS),在更精细的时间尺度上对这两个时钟进行独立调控:当计算核心繁忙时,适度降低内存时钟频率;当核心等待数据加载时,则放慢核心时钟、提升内存频率。

DVFS并非新技术,其历史可追溯至20世纪90年代。但Spaan指出,此前其他研究者未能将其有效应用于大模型训练,原因在于要么导致计算速度大幅下降,要么调节粒度太粗。以往方案通常在每次训练迭代层面调整频率——一次迭代包含前向传播和反向传播两个阶段,研究者会为每个阶段设定一个固定频率。而Spaan团队将调节下沉到“内核”级别。GPU的工作负载被分解为众多称为内核的微小计算单元,例如单次向量乘法即可构成一个内核。在深度神经网络的单层计算中,约包含40个内核。团队针对每个内核动态调整时钟频率,从而挖掘出更大的节能空间。

实验在一张Nvidia RTX 3080 Ti上训练拥有13亿参数的GPT-3-xl模型单层进行。结果显示,这套精细的频率调节方案实现了14%的能耗节省,而训练时间仅延长了0.6%,几乎不影响整体速度。Spaan解释,GPU本身虽具备根据负载自动调节频率的功能,但硬件缺乏对即将运行的内核的预判,只能基于实时猜测做出最佳努力,因此无法达到手动调节的节能效果。

不过,这一14%的节能数字是理想情况下的上限。研究者在实验中逐一评估内核,未计入频率切换本身所需的时间。实际应用中,切换速度的快慢高度依赖GPU硬件。Spaan表示,较新的硬件如英伟达Blackwell架构GPU拥有更快的频率切换能力,有望充分实现理论节能潜力。团队目前正在开发一款能针对特定工作负载自动实施最优频率调节的工具,目标是让该方法足够吸引产业界采纳。

从产业视角看,这项研究触及AI基础设施层的关键痛点。随着模型参数规模持续膨胀,训练能耗已成为制约算力扩张和成本控制的重要因素。若该技术能在数据中心大规模部署,不仅直接降低电力账单,还可能减轻对电网的压力,为AI产业的绿色转型提供一条技术路径。同时,它也反映出硬件与软件协同优化的新方向——不是单纯追求更高算力,而是在现有硬件上挤出隐藏效率。对于关注AI基础设施和能源成本的投资者而言,此类能效突破可能影响数据中心运营商的资本开支结构,以及GPU供应商的技术迭代路线。