英偉達全棧優化提升AI工廠能效，每瓦性能成關鍵指標

英偉達開發者博客稱，電力佔AI工廠運營成本40%，全棧推理訓練優化可提升能效

在AI工廠的運營賬本中，電力成本正佔據越來越重的分量。據英偉達開發者博客最新發布的技術文章，電力支出可高達AI工廠運營費用的40%。在大多數部署場地受限於區域電網提供的固定功率配額這一現實下，每一瓦電力的產出效率——即每瓦性能——已從技術指標上升為決定代幣成本和商業回報的核心經濟指標。

這篇文章由英偉達的Sachin Idgunji、Kibibi Moseley和Harry Petty聯合撰寫，系統闡述瞭如何通過從芯片到數據中心的全棧協同優化，在推理和訓練兩大工作負載上最大化能效。文章明確指出，推理是直接產生收入的工作負載，因此提升推理的每瓦吞吐量，就等於在單位時間內直接增加可出售的代幣數量或生成的洞察價值。在百兆瓦乃至吉瓦級別的AI工廠規模下，每兆瓦吞吐量哪怕僅提升幾個百分點，都能轉化為可觀的利潤增益。

在硬件層面，文章重點介紹了NVIDIA GB200 NVL72機架級系統。該系統採用高密度的直接芯片液冷架構，通過極致的系統協同設計提升每瓦吞吐量。其內置的機架內功率平滑技術能夠平抑峰值電流尖峰，使運營商在相同的電力和基礎設施預算內安全部署更多GPU。同時，開放的AI工廠級平臺NVIDIA DSX通過動態功率分配、實時遙測和先進的機架級控制，回收原本被閒置的“擱淺功率”，進一步提升每瓦代幣產出。

軟件與精度創新同樣扮演關鍵角色。文章強調，NVFP4等窄精度格式相比FP8，在同等精度下能效更高、吞吐量更大，能在固定功率預算內產出更多代幣。結合NVIDIA Dynamo與NVIDIA TensorRT-LLM的推理優化，這些硬件增益得以轉化為實際的吞吐量提升和成本下降，更高效地在GPU基礎設施上擴展推理模型。

在訓練優化方面，文章揭示了一個常被忽視的能耗漏洞。大模型訓練需跨多GPU並行分佈工作，但由於負載分配不均，部分GPU會提前完成計算任務並進入空閒等待狀態，造成顯著的能源浪費。英偉達與密歇根大學的ML.ENERGY Initiative及Megatron-LM項目合作，開創性地採用協調GPU速度調優與細粒度性能剖析技術：讓工作負載重的GPU全速運行，而負載輕的GPU適度降速，從而減少空閒等待。這一“能量感知訓練”方法在不增加訓練時間的前提下，實現了最高25%的節能，意味著在同樣功率預算下可以完成更多訓練任務或產出更多代幣。

文章還從模型架構角度分析了能效差異。混合專家模型（MoE）因其每個代幣僅激活部分專家參數的特性，在單位智能產出上通常比同等參數規模的稠密模型更節能。以DeepSeek-R1為例，其總參數量龐大，但處理每個代幣時僅激活其中一部分，從而以相似或更低的單代幣計算成本，實現了更高的任務性能。

綜合來看，英偉達此番技術論述勾勒出一條清晰的能效提升路徑：從液冷機架、動態功率控制等基礎設施層創新，到低精度計算、推理引擎等軟件層優化，再到訓練端GPU速度協調與模型架構選擇，構成一個覆蓋全棧的能效優化體系。文章披露，歷經六代架構迭代，英偉達已實現推理吞吐量每兆瓦百萬倍的提升。

對於AI產業的投資者和從業者而言，這組技術敘事背後傳遞的產業信號值得關注。隨著全球AI算力需求持續膨脹，而電力供給在多地趨於緊張，能效競賽正在成為繼算力規模競賽之後的下一個關鍵戰場。那些能夠在單位電力消耗下產出更多智能——即更多代幣、更優模型——的技術方案，將在成本結構和規模擴張上獲得結構性優勢。這不僅影響AI基礎設施的採購決策，也可能重塑從芯片設計到數據中心運營的整條產業鏈價值分配。

英偉達全棧優化提升AI工廠能效，每瓦性能成關鍵指標

延伸閱讀

相關深度報道

相關每日新聞