英伟达全栈优化提升AI工厂能效，每瓦性能成关键指标

英伟达开发者博客称，电力占AI工厂运营成本40%，全栈推理训练优化可提升能效

在AI工厂的运营账本中，电力成本正占据越来越重的分量。据英伟达开发者博客最新发布的技术文章，电力支出可高达AI工厂运营费用的40%。在大多数部署场地受限于区域电网提供的固定功率配额这一现实下，每一瓦电力的产出效率——即每瓦性能——已从技术指标上升为决定代币成本和商业回报的核心经济指标。

这篇文章由英伟达的Sachin Idgunji、Kibibi Moseley和Harry Petty联合撰写，系统阐述了如何通过从芯片到数据中心的全栈协同优化，在推理和训练两大工作负载上最大化能效。文章明确指出，推理是直接产生收入的工作负载，因此提升推理的每瓦吞吐量，就等于在单位时间内直接增加可出售的代币数量或生成的洞察价值。在百兆瓦乃至吉瓦级别的AI工厂规模下，每兆瓦吞吐量哪怕仅提升几个百分点，都能转化为可观的利润增益。

在硬件层面，文章重点介绍了NVIDIA GB200 NVL72机架级系统。该系统采用高密度的直接芯片液冷架构，通过极致的系统协同设计提升每瓦吞吐量。其内置的机架内功率平滑技术能够平抑峰值电流尖峰，使运营商在相同的电力和基础设施预算内安全部署更多GPU。同时，开放的AI工厂级平台NVIDIA DSX通过动态功率分配、实时遥测和先进的机架级控制，回收原本被闲置的“搁浅功率”，进一步提升每瓦代币产出。

软件与精度创新同样扮演关键角色。文章强调，NVFP4等窄精度格式相比FP8，在同等精度下能效更高、吞吐量更大，能在固定功率预算内产出更多代币。结合NVIDIA Dynamo与NVIDIA TensorRT-LLM的推理优化，这些硬件增益得以转化为实际的吞吐量提升和成本下降，更高效地在GPU基础设施上扩展推理模型。

在训练优化方面，文章揭示了一个常被忽视的能耗漏洞。大模型训练需跨多GPU并行分布工作，但由于负载分配不均，部分GPU会提前完成计算任务并进入空闲等待状态，造成显著的能源浪费。英伟达与密歇根大学的ML.ENERGY Initiative及Megatron-LM项目合作，开创性地采用协调GPU速度调优与细粒度性能剖析技术：让工作负载重的GPU全速运行，而负载轻的GPU适度降速，从而减少空闲等待。这一“能量感知训练”方法在不增加训练时间的前提下，实现了最高25%的节能，意味着在同样功率预算下可以完成更多训练任务或产出更多代币。

文章还从模型架构角度分析了能效差异。混合专家模型（MoE）因其每个代币仅激活部分专家参数的特性，在单位智能产出上通常比同等参数规模的稠密模型更节能。以DeepSeek-R1为例，其总参数量庞大，但处理每个代币时仅激活其中一部分，从而以相似或更低的单代币计算成本，实现了更高的任务性能。

综合来看，英伟达此番技术论述勾勒出一条清晰的能效提升路径：从液冷机架、动态功率控制等基础设施层创新，到低精度计算、推理引擎等软件层优化，再到训练端GPU速度协调与模型架构选择，构成一个覆盖全栈的能效优化体系。文章披露，历经六代架构迭代，英伟达已实现推理吞吐量每兆瓦百万倍的提升。

对于AI产业的投资者和从业者而言，这组技术叙事背后传递的产业信号值得关注。随着全球AI算力需求持续膨胀，而电力供给在多地趋于紧张，能效竞赛正在成为继算力规模竞赛之后的下一个关键战场。那些能够在单位电力消耗下产出更多智能——即更多代币、更优模型——的技术方案，将在成本结构和规模扩张上获得结构性优势。这不仅影响AI基础设施的采购决策，也可能重塑从芯片设计到数据中心运营的整条产业链价值分配。

英伟达全栈优化提升AI工厂能效，每瓦性能成关键指标

延伸阅读

相关深度报道

相关每日新闻