在AI工廠的運營賬本中,電力成本正佔據越來越重的分量。據英偉達開發者博客最新發布的技術文章,電力支出可高達AI工廠運營費用的40%。在大多數部署場地受限於區域電網提供的固定功率配額這一現實下,每一瓦電力的產出效率——即每瓦性能——已從技術指標上升為決定代幣成本和商業回報的核心經濟指標。
這篇文章由英偉達的Sachin Idgunji、Kibibi Moseley和Harry Petty聯合撰寫,系統闡述瞭如何通過從芯片到數據中心的全棧協同優化,在推理和訓練兩大工作負載上最大化能效。文章明確指出,推理是直接產生收入的工作負載,因此提升推理的每瓦吞吐量,就等於在單位時間內直接增加可出售的代幣數量或生成的洞察價值。在百兆瓦乃至吉瓦級別的AI工廠規模下,每兆瓦吞吐量哪怕僅提升幾個百分點,都能轉化為可觀的利潤增益。
在硬件層面,文章重點介紹了NVIDIA GB200 NVL72機架級系統。該系統採用高密度的直接芯片液冷架構,通過極致的系統協同設計提升每瓦吞吐量。其內置的機架內功率平滑技術能夠平抑峰值電流尖峰,使運營商在相同的電力和基礎設施預算內安全部署更多GPU。同時,開放的AI工廠級平臺NVIDIA DSX通過動態功率分配、實時遙測和先進的機架級控制,回收原本被閒置的“擱淺功率”,進一步提升每瓦代幣產出。
軟件與精度創新同樣扮演關鍵角色。文章強調,NVFP4等窄精度格式相比FP8,在同等精度下能效更高、吞吐量更大,能在固定功率預算內產出更多代幣。結合NVIDIA Dynamo與NVIDIA TensorRT-LLM的推理優化,這些硬件增益得以轉化為實際的吞吐量提升和成本下降,更高效地在GPU基礎設施上擴展推理模型。
在訓練優化方面,文章揭示了一個常被忽視的能耗漏洞。大模型訓練需跨多GPU並行分佈工作,但由於負載分配不均,部分GPU會提前完成計算任務並進入空閒等待狀態,造成顯著的能源浪費。英偉達與密歇根大學的ML.ENERGY Initiative及Megatron-LM項目合作,開創性地採用協調GPU速度調優與細粒度性能剖析技術:讓工作負載重的GPU全速運行,而負載輕的GPU適度降速,從而減少空閒等待。這一“能量感知訓練”方法在不增加訓練時間的前提下,實現了最高25%的節能,意味著在同樣功率預算下可以完成更多訓練任務或產出更多代幣。
文章還從模型架構角度分析了能效差異。混合專家模型(MoE)因其每個代幣僅激活部分專家參數的特性,在單位智能產出上通常比同等參數規模的稠密模型更節能。以DeepSeek-R1為例,其總參數量龐大,但處理每個代幣時僅激活其中一部分,從而以相似或更低的單代幣計算成本,實現了更高的任務性能。
綜合來看,英偉達此番技術論述勾勒出一條清晰的能效提升路徑:從液冷機架、動態功率控制等基礎設施層創新,到低精度計算、推理引擎等軟件層優化,再到訓練端GPU速度協調與模型架構選擇,構成一個覆蓋全棧的能效優化體系。文章披露,歷經六代架構迭代,英偉達已實現推理吞吐量每兆瓦百萬倍的提升。
對於AI產業的投資者和從業者而言,這組技術敘事背後傳遞的產業信號值得關注。隨著全球AI算力需求持續膨脹,而電力供給在多地趨於緊張,能效競賽正在成為繼算力規模競賽之後的下一個關鍵戰場。那些能夠在單位電力消耗下產出更多智能——即更多代幣、更優模型——的技術方案,將在成本結構和規模擴張上獲得結構性優勢。這不僅影響AI基礎設施的採購決策,也可能重塑從芯片設計到數據中心運營的整條產業鏈價值分配。