英伟达近日公布了其Rubin系列AI基础设施的一项关键散热设计:冷却液工作温度上限可达45摄氏度,高于常规沐浴水温。该公司将这一设计称为数据中心发展史上能效提升幅度最大的技术突破之一,并确认Rubin平台是全球首款实现100%液冷的AI算力平台。
传统数据中心长期依赖冷水机组制造低温冷水,再通过精密空调将冷空气输送至设备内部进行散热。而Rubin平台反其道而行,采用高温冷却液直接带走热量。其芯片、所有网络组件全部由闭环管路内的液体独立散热,整机完全取消了散热风扇。英伟达数据中心冷却与基础设施总监阿里·海达里表示,这套方案可实现零耗水,仅在极少数气候区域全年约1%的时段才需要启动冷水机组。
从经济效益看,一座50兆瓦的超大规模数据中心若改用该液冷基础设施,理论上每年可节省超过400万美元(约合人民币2712.3万元)的制冷相关水电开支。行业测算显示,冷水机组供水温度每提升1摄氏度,制冷能耗成本可降低约4%。在气候适宜地区,该架构可在完全停用冷水机组的情况下运行,仅依靠干冷器散热,而传统冷却塔制冷系统每兆瓦年耗水量约260万加仑(约9842吨),新方案可将耗水量降至近乎为零,节水幅度最高可达100%。
这一设计还带来了算力部署密度的提升。由于不再需要为空气散热预留风道和散热孔,原本占用6U空间的系统如今可压缩至2U空间内,在相同机房面积下部署更多算力设备。冷却液由75%水和25%丙二醇组成,流经紧贴处理器的冷板时直接在热源处带走热量,机房环境温度无需刻意调低,夏季室外高温空气也完全适配。此外,英伟达还指出,AI工厂算力运行产生的废热可二次利用,为周边商业楼宇或居民住宅供暖,提高整体能源利用效率。
不过,该方案也面临现实制约。据科技媒体The Verge报道,这套高温全液冷体系并未解决机房建设阶段产生的资源消耗,以及超大型算力设施所需的电力供给压力。英伟达官方博文也未提及使用Rubin平台的建设成本,仅由发言人向Gizmodo透露,相关价格将由数据中心设备供应商制定。施耐德电气旗下冷却子公司Motivair总裁兼CEO理查德·惠特莫尔指出,液冷系统的效果与地理环境密切相关,不同气候条件下能达到的节能水平存在差异。至少短期内,多数头部AI实验室大概率仍会继续使用传统高耗水型数据中心。
英伟达此次推动的100%液冷架构,是其降低AI基础设施运行成本和资源消耗的重要方案之一。该方案完整收录于英伟达DSX AI工厂参考设计,包含全套规范,用于指导整套AI工厂基础设施的设计、搭建与运维。随着AI训练和推理需求持续增长,散热效率的提升已成为影响数据中心建设成本和运营效率的核心变量。未来,兼顾算力供给、资源消耗与落地成本的散热体系,仍需芯片厂商、机房服务商与能源配套产业链多方协同推进。