什么是 PUE？数据中心行业平均 PUE 是多少？

PUE（电源使用效率）是数据中心总耗电除以真正喂给 IT 设备的那部分电，越接近 1 越好。按 Uptime Institute 2024 年的全球调查，行业平均 PUE 约为 1.56，已连续约五年原地踏步；而 Google、Meta 等超大规模厂商的全球机队年度 PUE 已压到 1.08–1.09。

英伟达 GB200 NVL72 为什么必须用液冷？

GB200 NVL72 把 72 颗 Blackwell GPU 和 36 颗 Grace CPU 塞进一个机架，整机架功率约 120kW。传统风冷在大约 20–40kW 每机架就触及物理天花板，120kW 的热量风扇吹不走，所以英伟达直接把液冷做成机架的前提而非选项。

液冷比风冷能省多少电？

方向上能省不少。风冷数据中心 PUE 通常在 1.4–1.6，直接到芯片（D2C）液冷设施可做到约 1.05–1.20，浸没式往往更低。把同样的算力从 PUE 1.56 降到 1.10，意味着同一份 IT 负载下，整座机房的总用电约少三成——省下的全是不增发一度电就腾出来的电网容量。

数据中心到 2030 年要用多少电？

按 IEA《Energy and AI》报告，全球数据中心用电预计从 2024 年约 415TWh 增长到 2030 年约 945TWh，大致翻倍，约占届时全球总用电的 3%；其中 AI 优化型数据中心的用电增长更快，预计翻两番有余。

数据中心耗水（WUE）为什么有争议？

很多数据中心靠蒸发冷却散热，会直接蒸发掉淡水。行业平均水利用效率约 1.8 升每千瓦时，Google 全球年化约 1 升、AWS 约 0.19 升，差距很大；而蒸发掉的水不像电那样有统一的公开口径，叠加 AI 扩张，耗水正成为继耗电之后的第二条环境争议线。

AI 的电从哪来（三）：把电用到极致——数据中心 PUE、液冷，与被算力规模放大的每一点能效 · 深度报道

把一台 GB200 NVL72 推进机房，最先撞上的不是芯片产能，也不是电费账单，而是一个朴素到容易被忽略的物理事实：这一个机架要烧掉大约 120 千瓦的电，并把几乎等量的热塞回那一立方米多的空间里^[1]^[2]。

作为对照，几年前一个塞满通用服务器的标准机架，功率不过 10 到 15 千瓦；今天一个 AI 训练机架的热密度，相当于把过去八到十个机架的发热量压进同一个铁柜子。风扇再大、冷风再猛，吹不动这么密的热——业界的经验值是，风冷过了大约 20 到 40 千瓦每机架就开始力不从心^[12]。

于是这一篇，读马君想换个角度。前两篇我们追问「电从哪来」：一篇讲增长撞上电网与并网排队，一篇讲核电与 SMR 的供给。这一篇要谈的是同一道题的反面——「电怎么省」。当每一度电都金贵、电网容量成了 AI 扩张的硬约束，把已经拿到的电用到极致，就成了一根隐形的杠杆：它不增发一度电，却能让同样的电网容量喂下更多算力。

一个被规模放大的小数：PUE 是什么

衡量「电用得省不省」，行业用一个叫 PUE 的指标——电源使用效率（Power Usage Effectiveness）。它的定义很直白：一座数据中心的总耗电，除以真正喂给 IT 设备（服务器、GPU、存储、网络）的那部分电。

理想值是 1.0，意味着每一度电都进了芯片，散热、配电、照明一律不耗电——物理上做不到。现实里，PUE 1.5 意味着：每给芯片 1 度电，就要额外烧掉 0.5 度在制冷和配电的损耗上。PUE 1.1，则是只多花 0.1 度。

这个差看着不大，关键在它被算力的规模放大了。同一份 IT 负载，PUE 从 1.56 降到 1.10，整座机房的总用电会从 1.56 个单位降到 1.10 个单位——同样的活，总电少了约三成^[4]^[7]。一座 100 兆瓦 IT 负载的园区，这三成就是几十兆瓦，足够再点亮一片机柜，或者把并网申请里那一段排队的容量省出来。能效在这里不是环保口号，是实打实的扩产空间。

行业平均卡在 1.5，超大规模厂商已逼近 1.1

这里有一道容易被混为一谈的鸿沟，读马君想先把它分清楚。

一边是行业平均。Uptime Institute 每年做一次全球数据中心调查，2024 年那一版给出的行业平均 PUE 是 1.56，而且已经连续约五年原地踏步^[4]^[5]。把时间拉长看，进步其实发生过：2007 年前后行业平均 PUE 还在 2.5 以上，能效改善的红利在 2010 年代被吃掉了一大半；但近五年，这条曲线几乎拉平^[6]。原因不复杂——调查里近一半的数据中心机龄超过 11 年，老机房的制冷架构早已定型，要把 PUE 压下去得伤筋动骨地改造，很多业主算下来不划算，宁可让它停在 1.5。

另一边是超大规模厂商的自报数字，完全是另一个量级。Google 公布的全球机队年度 PUE 是 1.09，而且它特意强调这是「全口径」——涵盖变电站、变压器、水处理、办公附属设施在内的全部开销，按全球机队滚动十二个月计^[7]^[8]。Meta 在其可持续报告里给出的机队平均 PUE 约 1.08^[9]。换句话说，最好的玩家每喂芯片 1 度电，只多花不到 0.1 度在别处；行业平均却要多花 0.56 度。Google 自己的算法是，这意味着它比行业平均少用约 84% 的「开销电」^[7]。

这道鸿沟解释了一个反直觉的现象：AI 把总用电推高的同时，单位算力的能效其实在头部玩家手里持续变好——只是这份红利高度集中在少数几家有能力从头设计园区、统一调度冷却与配电的超大规模厂商，没有外溢到那一半停在 1.5 的存量市场。把「行业平均」和「超大规模最优」混着说，会同时高估普通机房的水平、低估头部的差距。

当机架冲到 120kW：液冷从选项变成前提

让能效这道题在 2025、2026 年突然变得尖锐的，是芯片这一端的功率密度暴涨——这是一条从芯片功耗一路传导到机房供电与散热的链路。

英伟达的 GB200 NVL72 把 72 颗 Blackwell GPU 和 36 颗 Grace CPU 用 NVLink 连成一个机架级整体，对外当成「一台巨型 GPU」来用^[1]。代价是热密度：整机架约 120 千瓦的功耗，要靠四个 30 千瓦的供电单元、480 伏三相输入连续喂着^[2]^[3]。这不是某个极端配置，而是这一代旗舰的标准形态。

风冷在这里直接出局。空气的比热容和导热能力摆在那儿，一个机架的散热极限，风冷大约在 20 到 40 千瓦就触顶，再往上，热风开始在机柜里回流、互相加热，能效不升反降^[12]。120 千瓦是这个天花板的数倍。所以英伟达在 GB200 上不再把液冷当成「推荐选项」，而是写进了硬性规格：冷板直接贴在芯片上，冷却液以约 20 到 25 摄氏度的入口温度持续流过，把热直接带走^[2]。液体的比热容和导热能力远胜空气，这是物理决定的——超过大约 40 千瓦每机架，液冷就从「可以选」变成「必须用」。

值得点明的是，液冷不只是「能不能压住热」的问题，它本身也更省电。把热从风冷换成液冷，最直接的收益是省掉了那一大批轰鸣的风扇和庞大的空调机组：风冷数据中心 PUE 通常落在 1.4 到 1.6，而采用直接到芯片（D2C）液冷的设施，能把 PUE 做到约 1.05 到 1.20^[12]^[13]。也就是说，液冷一边解了热密度的死结，一边顺手把 PUE 往 1.1 的方向拉——这正是超大规模厂商能逼近 1.09 的物理底座之一。

冷板还是泡进油里：两条液冷路线的分野

液冷不是铁板一块。眼下主要有两条路线，能效和工程代价各有取舍。

一条是直接到芯片（direct-to-chip，D2C），也叫冷板式：在 GPU、CPU 这些发热大户上扣一块带微通道的金属冷板，冷却液在板内流动带走热，其余元件仍靠少量风冷辅助。它的好处是改造相对温和、和现有机房生态兼容，是当下 GB200 这一代的主流路线，可支撑约 60 到 120 千瓦以上的机架^[12]^[13]。

另一条是浸没式（immersion），更激进：把整块主板泡进不导电的冷却液里，靠液体直接接触所有元件散热，风扇彻底取消。方向上，浸没式的 PUE 通常比 D2C 还要低一截、能压制的功率密度也更高^[13]^[14]。代价是工程改动大——机房得从「立着的机柜」改成「躺着的液槽」，维护时要把整块板从油里捞出来，运维流程、密封、冷却液成本都是新课题。

读马君的判断是，这不是「谁取代谁」的二选一，而是按密度和场景分层共存：当下绝大多数 AI 机架走 D2C，浸没式在超高密度、对 PUE 极致敏感的少数场景里推进。无论哪条路，方向是一致的——风冷正在被挤出 AI 机房的核心区。

别只盯 PUE：液冷也有它的账单和阴影

把液冷讲成纯粹的胜利，是不诚实的。它有清晰的反面，读马君觉得必须摆出来。

第一是钱。液冷的前期资本开支（capex）明显高于风冷——冷板、分液单元（CDU）、管路、二次冷却回路，外加机房供电的整体升级，都是真金白银。对新建的超大规模 AI 园区，这笔账靠规模和能效省回来；但对那一半机龄超过 11 年的存量机房，从风冷硬改液冷，往往是「拆了重来」级别的工程，经济上未必划算——这也是行业平均 PUE 迟迟下不来的现实原因之一。

第二是运维复杂度和漏液风险。把液体引到带电的芯片旁边，本身就是工程上的妥协：管路接头、快接阀、密封件，任何一处渗漏都可能酿成停机甚至硬件损毁。运维团队要从「管空调」转向「管一套循环水路」，技能和流程都得重建。这不是不能解，但它是实打实的新风险，不能用一句「液冷更先进」盖过去。

第三是水。这是 PUE 之外、最容易被能效叙事盖住的一笔账。

被 PUE 遮住的另一笔账：耗水

PUE 只管电，不管水。而很多数据中心散热靠的是蒸发冷却——让水蒸发带走热，省电的同时，直接把淡水蒸发进了大气。

衡量这一项的指标叫 WUE（水利用效率），单位是升每千瓦时。行业平均大约在 1.8 升每千瓦时^[15]。头部玩家好得多：Google 全球年化约 1 升每千瓦时，AWS 报告其全球 WUE 约 0.19 升^[15]。但这里有个微妙的此消彼长——压低 PUE 的一些手法（比如多用蒸发冷却少用机械制冷）反而会推高 WUE，省了电却费了水。

水的争议比电更难量化，恰恰因为它缺一个像电费那样统一、公开、逐月对账的口径。一个被反复引用的估算是，仅训练 GPT-3 一个模型，在微软美国数据中心就可能消耗约 540 万升水（含约 70 万升的现场直接耗水）^[16]——这是研究者基于公开 PUE/WUE 反推的估算，不是微软官方披露，量级供参考。但方向很清楚：当数百万张 GPU 的耗电被规模放大，它们背后的耗水也被同比例放大，只是后者长期躲在能效叙事的阴影里。把数据中心建在缺水地区，正在从环境议题变成选址约束。

液冷的意外红利：热也能并进供暖管网

液冷除了省电，还带来一个风冷很难做到的副产品：它把分散的热集中起来、以较高的水温导出，让原本只能排掉的废热，有机会变成另一处的能源。

最典型的是北欧。Meta 在丹麦欧登塞（Odense）的数据中心，把服务器余热回收后并入当地的区域供暖管网，每年向城市输送约 10 万兆瓦时的热量，足够供应上万户家庭取暖^[17]。微软在丹麦 Høje-Taastrup 的数据中心，也通过换热器把余热送进本地区域供暖网，预计从 2025–2026 供暖季起为数千户居民供暖^[18]。在这些项目里，数据中心不再只是耗能的黑箱，而成了城市供暖网络的一个热源。

但读马君要泼一盆冷水：这条路高度依赖地理。它划算的前提，是当地既有成熟的区域供暖管网、又有真实的供暖需求——这恰恰是北欧的禀赋。美国多数 AI 数据中心所在的地方，既没有铺到家家户户的区域供暖管道，气候上也未必需要长时间供暖，余热多半还是排进了大气或冷却塔。所以余热回收眼下更像一个由北欧气候与基建共同成就的特例，而非可以全球复制的普适解——能不能落地，先要问一句「这里有没有人需要这份热、又有没有管子把它送过去」。

PUE 之上：每瓦算力才是更大的那根杠杆

把视角再往上抬一层，会发现 PUE 其实只管了「机房这一层的损耗」，却管不到一个更大的问题：那些真正喂进芯片的电，到底产出了多少算力。

这是 PUE 这个指标的盲区。一座 PUE 做到 1.1 的机房，如果里面塞的是上一代低效芯片，每度电产出的算力照样有限；反过来，换上每瓦性能更高的新芯片，即便机房 PUE 没变，同样的电也能算出更多东西。机房省电（PUE 与液冷）是在分母上抠零头，而芯片本身的每瓦性能，才是分子上的大头。

这恰恰是英伟达每一代产品最用力宣传的卖点。按英伟达官方的说法，GB200 NVL72 在大模型推理这类负载上，单位能耗较同等数量的上一代 H100 最高可降约 25 倍^[19]——这是厂商口径、针对特定推理场景，实际增益随工作负载而变，但方向清楚：每一代芯片在「每瓦能算多少」上的跃升，是比机房节能大得多的能效杠杆。黄仁勋反复讲的「每瓦 token」，底层逻辑就在这里。

但这里藏着一个让所有能效叙事都尴尬的悖论：芯片越省电、单位算力越便宜，需求反而被刺激得越猛，总耗电不降反升——这正是经济学里的杰文斯悖论。芯片的每瓦性能这几年提升了数倍，但全球数据中心的总用电不仅没降，反而预计从 2024 年的约 415TWh 翻倍到 2030 年的约 945TWh、约占届时全球总用电的 3%，其中 AI 优化型数据中心的增长更猛、预计翻两番有余^[10]^[11]。能效的每一分进步，都在被暴涨的需求悄悄吃掉。

能效是杠杆，不是发电机

把这几笔账并起来，读马君的判断是：能效是 AI 扩张里一根真实、但有限的杠杆。

它真实，因为每一分都被规模放大——PUE 每降 0.1、WUE 每省一点，乘以数百万张 GPU，省下的电和水都是可观的绝对数。一座园区把 PUE 从 1.5 做到 1.1，省出的容量足够多喂相当一片机柜的算力，这就是「不增发一度电，却喂下更多算力」的含义。

它有限，因为能效只是分母上的优化，不凭空创造一度电。当行业平均 PUE 还停在 1.5、而头部已逼近 1.1 的物理渐近线，往下抠的空间越来越薄——从 1.56 到 1.1 省了三成，从 1.1 到 1.05 只剩几个百分点。把 AI 的电力难题全指望能效，是把杠杆当成了发电机。前两篇讲的电网与核电，仍是分子上绕不开的硬仗；省电与发电，是同一道题的两面，缺一不可。

接下来 6 到 12 个月，盯这几个可核查的指标

这一环的进展，不靠口号，靠几个能逐季对账的硬数字。读马君建议读懂AI时代的读者盯住这几条：

超大规模厂商的年度 PUE 是否继续逼近 1.1。 Google、Meta、微软、AWS 每年的可持续/ESG 报告里都会披露机队 PUE；看头部是稳在 1.08–1.09，还是被 AI 高密度负载顶回去。同时看行业平均（Uptime 的年度调查）那条 1.5 的线有没有松动。
新建 AI 园区的液冷渗透率。 看新公布的超大规模园区里，液冷（尤其 D2C）占多大比例、有没有浸没式的规模化案例落地——这是「液冷从选项变前提」是否兑现的直接证据。
下一代芯片的散热路线。 GB300、以及英伟达路线图后续平台的机架功率会不会继续往上冲、是否倒逼更激进的冷却方案。功率密度每抬一档，风冷的退场就快一步。
WUE 的披露透明度。 看更多厂商是否开始像报 PUE 那样、逐年公开 WUE 和绝对耗水量，尤其在缺水地区的园区。水这笔账能不能从「估算」走向「对账」，本身就是一个信号。

能效不会上头条，但它是 AI 扩张里那根一直在悄悄起作用的杠杆。电网和核电决定了池子里有多少水，而 PUE 和液冷，决定了同样一池水能养活多少算力。

AI 的电从哪来（三）：把电用到极致——数据中心 PUE、液冷，与被算力规模放大的每一点能效

一个被规模放大的小数：PUE 是什么

行业平均卡在 1.5，超大规模厂商已逼近 1.1

当机架冲到 120kW：液冷从选项变成前提

冷板还是泡进油里：两条液冷路线的分野

别只盯 PUE：液冷也有它的账单和阴影

被 PUE 遮住的另一笔账：耗水

液冷的意外红利：热也能并进供暖管网

PUE 之上：每瓦算力才是更大的那根杠杆

能效是杠杆，不是发电机

接下来 6 到 12 个月，盯这几个可核查的指标

常见问题

参考来源

一个被规模放大的小数：PUE 是什么

行业平均卡在 1.5，超大规模厂商已逼近 1.1

当机架冲到 120kW：液冷从选项变成前提

冷板还是泡进油里：两条液冷路线的分野

别只盯 PUE：液冷也有它的账单和阴影

被 PUE 遮住的另一笔账：耗水

液冷的意外红利：热也能并进供暖管网

PUE 之上：每瓦算力才是更大的那根杠杆

能效是杠杆，不是发电机

接下来 6 到 12 个月，盯这几个可核查的指标

常见问题

参考来源

同系列往期

相关每日新闻