英偉達近日公佈了其Rubin系列AI基礎設施的一項關鍵散熱設計:冷卻液工作溫度上限可達45攝氏度,高於常規沐浴水溫。該公司將這一設計稱為數據中心發展史上能效提升幅度最大的技術突破之一,並確認Rubin平臺是全球首款實現100%液冷的AI算力平臺。
傳統數據中心長期依賴冷水機組製造低溫冷水,再通過精密空調將冷空氣輸送至設備內部進行散熱。而Rubin平臺反其道而行,採用高溫冷卻液直接帶走熱量。其芯片、所有網絡組件全部由閉環管路內的液體獨立散熱,整機完全取消了散熱風扇。英偉達數據中心冷卻與基礎設施總監阿里·海達裡表示,這套方案可實現零耗水,僅在極少數氣候區域全年約1%的時段才需要啟動冷水機組。
從經濟效益看,一座50兆瓦的超大規模數據中心若改用該液冷基礎設施,理論上每年可節省超過400萬美元(約合人民幣2712.3萬元)的製冷相關水電開支。行業測算顯示,冷水機組供水溫度每提升1攝氏度,製冷能耗成本可降低約4%。在氣候適宜地區,該架構可在完全停用冷水機組的情況下運行,僅依靠乾冷器散熱,而傳統冷卻塔製冷系統每兆瓦年耗水量約260萬加侖(約9842噸),新方案可將耗水量降至近乎為零,節水幅度最高可達100%。
這一設計還帶來了算力部署密度的提升。由於不再需要為空氣散熱預留風道和散熱孔,原本佔用6U空間的系統如今可壓縮至2U空間內,在相同機房面積下部署更多算力設備。冷卻液由75%水和25%丙二醇組成,流經緊貼處理器的冷板時直接在熱源處帶走熱量,機房環境溫度無需刻意調低,夏季室外高溫空氣也完全適配。此外,英偉達還指出,AI工廠算力運行產生的廢熱可二次利用,為周邊商業樓宇或居民住宅供暖,提高整體能源利用效率。
不過,該方案也面臨現實制約。據科技媒體The Verge報道,這套高溫全液冷體系並未解決機房建設階段產生的資源消耗,以及超大型算力設施所需的電力供給壓力。英偉達官方博文也未提及使用Rubin平臺的建設成本,僅由發言人向Gizmodo透露,相關價格將由數據中心設備供應商制定。施耐德電氣旗下冷卻子公司Motivair總裁兼CEO理查德·惠特莫爾指出,液冷系統的效果與地理環境密切相關,不同氣候條件下能達到的節能水平存在差異。至少短期內,多數頭部AI實驗室大概率仍會繼續使用傳統高耗水型數據中心。
英偉達此次推動的100%液冷架構,是其降低AI基礎設施運行成本和資源消耗的重要方案之一。該方案完整收錄於英偉達DSX AI工廠參考設計,包含全套規範,用於指導整套AI工廠基礎設施的設計、搭建與運維。隨著AI訓練和推理需求持續增長,散熱效率的提升已成為影響數據中心建設成本和運營效率的核心變量。未來,兼顧算力供給、資源消耗與落地成本的散熱體系,仍需芯片廠商、機房服務商與能源配套產業鏈多方協同推進。