在AI工厂的运营账本中,电力成本正占据越来越重的分量。据英伟达开发者博客最新发布的技术文章,电力支出可高达AI工厂运营费用的40%。在大多数部署场地受限于区域电网提供的固定功率配额这一现实下,每一瓦电力的产出效率——即每瓦性能——已从技术指标上升为决定代币成本和商业回报的核心经济指标。
这篇文章由英伟达的Sachin Idgunji、Kibibi Moseley和Harry Petty联合撰写,系统阐述了如何通过从芯片到数据中心的全栈协同优化,在推理和训练两大工作负载上最大化能效。文章明确指出,推理是直接产生收入的工作负载,因此提升推理的每瓦吞吐量,就等于在单位时间内直接增加可出售的代币数量或生成的洞察价值。在百兆瓦乃至吉瓦级别的AI工厂规模下,每兆瓦吞吐量哪怕仅提升几个百分点,都能转化为可观的利润增益。
在硬件层面,文章重点介绍了NVIDIA GB200 NVL72机架级系统。该系统采用高密度的直接芯片液冷架构,通过极致的系统协同设计提升每瓦吞吐量。其内置的机架内功率平滑技术能够平抑峰值电流尖峰,使运营商在相同的电力和基础设施预算内安全部署更多GPU。同时,开放的AI工厂级平台NVIDIA DSX通过动态功率分配、实时遥测和先进的机架级控制,回收原本被闲置的“搁浅功率”,进一步提升每瓦代币产出。
软件与精度创新同样扮演关键角色。文章强调,NVFP4等窄精度格式相比FP8,在同等精度下能效更高、吞吐量更大,能在固定功率预算内产出更多代币。结合NVIDIA Dynamo与NVIDIA TensorRT-LLM的推理优化,这些硬件增益得以转化为实际的吞吐量提升和成本下降,更高效地在GPU基础设施上扩展推理模型。
在训练优化方面,文章揭示了一个常被忽视的能耗漏洞。大模型训练需跨多GPU并行分布工作,但由于负载分配不均,部分GPU会提前完成计算任务并进入空闲等待状态,造成显著的能源浪费。英伟达与密歇根大学的ML.ENERGY Initiative及Megatron-LM项目合作,开创性地采用协调GPU速度调优与细粒度性能剖析技术:让工作负载重的GPU全速运行,而负载轻的GPU适度降速,从而减少空闲等待。这一“能量感知训练”方法在不增加训练时间的前提下,实现了最高25%的节能,意味着在同样功率预算下可以完成更多训练任务或产出更多代币。
文章还从模型架构角度分析了能效差异。混合专家模型(MoE)因其每个代币仅激活部分专家参数的特性,在单位智能产出上通常比同等参数规模的稠密模型更节能。以DeepSeek-R1为例,其总参数量庞大,但处理每个代币时仅激活其中一部分,从而以相似或更低的单代币计算成本,实现了更高的任务性能。
综合来看,英伟达此番技术论述勾勒出一条清晰的能效提升路径:从液冷机架、动态功率控制等基础设施层创新,到低精度计算、推理引擎等软件层优化,再到训练端GPU速度协调与模型架构选择,构成一个覆盖全栈的能效优化体系。文章披露,历经六代架构迭代,英伟达已实现推理吞吐量每兆瓦百万倍的提升。
对于AI产业的投资者和从业者而言,这组技术叙事背后传递的产业信号值得关注。随着全球AI算力需求持续膨胀,而电力供给在多地趋于紧张,能效竞赛正在成为继算力规模竞赛之后的下一个关键战场。那些能够在单位电力消耗下产出更多智能——即更多代币、更优模型——的技术方案,将在成本结构和规模扩张上获得结构性优势。这不仅影响AI基础设施的采购决策,也可能重塑从芯片设计到数据中心运营的整条产业链价值分配。