什麼是 PUE？數據中心行業平均 PUE 是多少？

PUE（電源使用效率）是數據中心總耗電除以真正餵給 IT 設備的那部分電，越接近 1 越好。按 Uptime Institute 2024 年的全球調查，行業平均 PUE 約為 1.56，已連續約五年原地踏步；而 Google、Meta 等超大規模廠商的全球機隊年度 PUE 已壓到 1.08–1.09。

英偉達 GB200 NVL72 為什麼必須用液冷？

GB200 NVL72 把 72 顆 Blackwell GPU 和 36 顆 Grace CPU 塞進一個機架，整機架功率約 120kW。傳統風冷在大約 20–40kW 每機架就觸及物理天花板，120kW 的熱量風扇吹不走，所以英偉達直接把液冷做成機架的前提而非選項。

液冷比風冷能省多少電？

方向上能省不少。風冷數據中心 PUE 通常在 1.4–1.6，直接到芯片（D2C）液冷設施可做到約 1.05–1.20，浸沒式往往更低。把同樣的算力從 PUE 1.56 降到 1.10，意味著同一份 IT 負載下，整座機房的總用電約少三成——省下的全是不增發一度電就騰出來的電網容量。

數據中心到 2030 年要用多少電？

按 IEA《Energy and AI》報告，全球數據中心用電預計從 2024 年約 415TWh 增長到 2030 年約 945TWh，大致翻倍，約佔屆時全球總用電的 3%；其中 AI 優化型數據中心的用電增長更快，預計翻兩番有餘。

數據中心耗水（WUE）為什麼有爭議？

很多數據中心靠蒸發冷卻散熱，會直接蒸發掉淡水。行業平均水利用效率約 1.8 升每千瓦時，Google 全球年化約 1 升、AWS 約 0.19 升，差距很大；而蒸發掉的水不像電那樣有統一的公開口徑，疊加 AI 擴張，耗水正成為繼耗電之後的第二條環境爭議線。

AI 的電從哪來（三）：把電用到極致——數據中心 PUE、液冷，與被算力規模放大的每一點能效 · 深度報道

把一臺 GB200 NVL72 推進機房，最先撞上的不是芯片產能，也不是電費賬單，而是一個樸素到容易被忽略的物理事實：這一個機架要燒掉大約 120 千瓦的電，並把幾乎等量的熱塞回那一立方米多的空間裡^[1]^[2]。

作為對照，幾年前一個塞滿通用服務器的標準機架，功率不過 10 到 15 千瓦；今天一個 AI 訓練機架的熱密度，相當於把過去八到十個機架的發熱量壓進同一個鐵櫃子。風扇再大、冷風再猛，吹不動這麼密的熱——業界的經驗值是，風冷過了大約 20 到 40 千瓦每機架就開始力不從心^[12]。

於是這一篇，讀馬君想換個角度。前兩篇我們追問「電從哪來」：一篇講增長撞上電網與併網排隊，一篇講核電與 SMR 的供給。這一篇要談的是同一道題的反面——「電怎麼省」。當每一度電都金貴、電網容量成了 AI 擴張的硬約束，把已經拿到的電用到極致，就成了一根隱形的槓桿：它不增發一度電，卻能讓同樣的電網容量喂下更多算力。

一個被規模放大的小數：PUE 是什麼

衡量「電用得省不省」，行業用一個叫 PUE 的指標——電源使用效率（Power Usage Effectiveness）。它的定義很直白：一座數據中心的總耗電，除以真正餵給 IT 設備（服務器、GPU、存儲、網絡）的那部分電。

理想值是 1.0，意味著每一度電都進了芯片，散熱、配電、照明一律不耗電——物理上做不到。現實裡，PUE 1.5 意味著：每給芯片 1 度電，就要額外燒掉 0.5 度在製冷和配電的損耗上。PUE 1.1，則是隻多花 0.1 度。

這個差看著不大，關鍵在它被算力的規模放大了。同一份 IT 負載，PUE 從 1.56 降到 1.10，整座機房的總用電會從 1.56 個單位降到 1.10 個單位——同樣的活，總電少了約三成^[4]^[7]。一座 100 兆瓦 IT 負載的園區，這三成就是幾十兆瓦，足夠再點亮一片機櫃，或者把併網申請裡那一段排隊的容量省出來。能效在這裡不是環保口號，是實打實的擴產空間。

行業平均卡在 1.5，超大規模廠商已逼近 1.1

這裡有一道容易被混為一談的鴻溝，讀馬君想先把它分清楚。

一邊是行業平均。Uptime Institute 每年做一次全球數據中心調查，2024 年那一版給出的行業平均 PUE 是 1.56，而且已經連續約五年原地踏步^[4]^[5]。把時間拉長看，進步其實發生過：2007 年前後行業平均 PUE 還在 2.5 以上，能效改善的紅利在 2010 年代被吃掉了一大半；但近五年，這條曲線幾乎拉平^[6]。原因不復雜——調查裡近一半的數據中心機齡超過 11 年，老機房的製冷架構早已定型，要把 PUE 壓下去得傷筋動骨地改造，很多業主算下來不划算，寧可讓它停在 1.5。

另一邊是超大規模廠商的自報數字，完全是另一個量級。Google 公佈的全球機隊年度 PUE 是 1.09，而且它特意強調這是「全口徑」——涵蓋變電站、變壓器、水處理、辦公附屬設施在內的全部開銷，按全球機隊滾動十二個月計^[7]^[8]。Meta 在其可持續報告裡給出的機隊平均 PUE 約 1.08^[9]。換句話說，最好的玩家每喂芯片 1 度電，只多花不到 0.1 度在別處；行業平均卻要多花 0.56 度。Google 自己的算法是，這意味著它比行業平均少用約 84% 的「開銷電」^[7]。

這道鴻溝解釋了一個反直覺的現象：AI 把總用電推高的同時，單位算力的能效其實在頭部玩家手裡持續變好——只是這份紅利高度集中在少數幾家有能力從頭設計園區、統一調度冷卻與配電的超大規模廠商，沒有外溢到那一半停在 1.5 的存量市場。把「行業平均」和「超大規模最優」混著說，會同時高估普通機房的水平、低估頭部的差距。

當機架衝到 120kW：液冷從選項變成前提

讓能效這道題在 2025、2026 年突然變得尖銳的，是芯片這一端的功率密度暴漲——這是一條從芯片功耗一路傳導到機房供電與散熱的鏈路。

英偉達的 GB200 NVL72 把 72 顆 Blackwell GPU 和 36 顆 Grace CPU 用 NVLink 連成一個機架級整體，對外當成「一臺巨型 GPU」來用^[1]。代價是熱密度：整機架約 120 千瓦的功耗，要靠四個 30 千瓦的供電單元、480 伏三相輸入連續喂著^[2]^[3]。這不是某個極端配置，而是這一代旗艦的標準形態。

風冷在這裡直接出局。空氣的比熱容和導熱能力擺在那兒，一個機架的散熱極限，風冷大約在 20 到 40 千瓦就觸頂，再往上，熱風開始在機櫃裡迴流、互相加熱，能效不升反降^[12]。120 千瓦是這個天花板的數倍。所以英偉達在 GB200 上不再把液冷當成「推薦選項」，而是寫進了硬性規格：冷板直接貼在芯片上，冷卻液以約 20 到 25 攝氏度的入口溫度持續流過，把熱直接帶走^[2]。液體的比熱容和導熱能力遠勝空氣，這是物理決定的——超過大約 40 千瓦每機架，液冷就從「可以選」變成「必須用」。

值得點明的是，液冷不只是「能不能壓住熱」的問題，它本身也更省電。把熱從風冷換成液冷，最直接的收益是省掉了那一大批轟鳴的風扇和龐大的空調機組：風冷數據中心 PUE 通常落在 1.4 到 1.6，而採用直接到芯片（D2C）液冷的設施，能把 PUE 做到約 1.05 到 1.20^[12]^[13]。也就是說，液冷一邊解了熱密度的死結，一邊順手把 PUE 往 1.1 的方向拉——這正是超大規模廠商能逼近 1.09 的物理底座之一。

冷板還是泡進油裡：兩條液冷路線的分野

液冷不是鐵板一塊。眼下主要有兩條路線，能效和工程代價各有取捨。

一條是直接到芯片（direct-to-chip，D2C），也叫冷板式：在 GPU、CPU 這些發熱大戶上扣一塊帶微通道的金屬冷板，冷卻液在板內流動帶走熱，其餘元件仍靠少量風冷輔助。它的好處是改造相對溫和、和現有機房生態兼容，是當下 GB200 這一代的主流路線，可支撐約 60 到 120 千瓦以上的機架^[12]^[13]。

另一條是浸沒式（immersion），更激進：把整塊主板泡進不導電的冷卻液裡，靠液體直接接觸所有元件散熱，風扇徹底取消。方向上，浸沒式的 PUE 通常比 D2C 還要低一截、能壓制的功率密度也更高^[13]^[14]。代價是工程改動大——機房得從「立著的機櫃」改成「躺著的液槽」，維護時要把整塊板從油裡撈出來，運維流程、密封、冷卻液成本都是新課題。

讀馬君的判斷是，這不是「誰取代誰」的二選一，而是按密度和場景分層共存：當下絕大多數 AI 機架走 D2C，浸沒式在超高密度、對 PUE 極致敏感的少數場景裡推進。無論哪條路，方向是一致的——風冷正在被擠出 AI 機房的核心區。

別隻盯 PUE：液冷也有它的賬單和陰影

把液冷講成純粹的勝利，是不誠實的。它有清晰的反面，讀馬君覺得必須擺出來。

第一是錢。液冷的前期資本開支（capex）明顯高於風冷——冷板、分液單元（CDU）、管路、二次冷卻迴路，外加機房供電的整體升級，都是真金白銀。對新建的超大規模 AI 園區，這筆賬靠規模和能效省回來；但對那一半機齡超過 11 年的存量機房，從風冷硬改液冷，往往是「拆了重來」級別的工程，經濟上未必划算——這也是行業平均 PUE 遲遲下不來的現實原因之一。

第二是運維複雜度和漏液風險。把液體引到帶電的芯片旁邊，本身就是工程上的妥協：管路接頭、快接閥、密封件，任何一處滲漏都可能釀成停機甚至硬件損毀。運維團隊要從「管空調」轉向「管一套循環水路」，技能和流程都得重建。這不是不能解，但它是實打實的新風險，不能用一句「液冷更先進」蓋過去。

第三是水。這是 PUE 之外、最容易被能效敘事蓋住的一筆賬。

被 PUE 遮住的另一筆賬：耗水

PUE 只管電，不管水。而很多數據中心散熱靠的是蒸發冷卻——讓水蒸發帶走熱，省電的同時，直接把淡水蒸發進了大氣。

衡量這一項的指標叫 WUE（水利用效率），單位是升每千瓦時。行業平均大約在 1.8 升每千瓦時^[15]。頭部玩家好得多：Google 全球年化約 1 升每千瓦時，AWS 報告其全球 WUE 約 0.19 升^[15]。但這裡有個微妙的此消彼長——壓低 PUE 的一些手法（比如多用蒸發冷卻少用機械製冷）反而會推高 WUE，省了電卻費了水。

水的爭議比電更難量化，恰恰因為它缺一個像電費那樣統一、公開、逐月對賬的口徑。一個被反覆引用的估算是，僅訓練 GPT-3 一個模型，在微軟美國數據中心就可能消耗約 540 萬升水（含約 70 萬升的現場直接耗水）^[16]——這是研究者基於公開 PUE/WUE 反推的估算，不是微軟官方披露，量級供參考。但方向很清楚：當數百萬張 GPU 的耗電被規模放大，它們背後的耗水也被同比例放大，只是後者長期躲在能效敘事的陰影裡。把數據中心建在缺水地區，正在從環境議題變成選址約束。

液冷的意外紅利：熱也能並進供暖管網

液冷除了省電，還帶來一個風冷很難做到的副產品：它把分散的熱集中起來、以較高的水溫導出，讓原本只能排掉的廢熱，有機會變成另一處的能源。

最典型的是北歐。Meta 在丹麥歐登塞（Odense）的數據中心，把服務器餘熱回收後併入當地的區域供暖管網，每年向城市輸送約 10 萬兆瓦時的熱量，足夠供應上萬戶家庭取暖^[17]。微軟在丹麥 Høje-Taastrup 的數據中心，也通過換熱器把餘熱送進本地區域供暖網，預計從 2025–2026 供暖季起為數千戶居民供暖^[18]。在這些項目裡，數據中心不再只是耗能的黑箱，而成了城市供暖網絡的一個熱源。

但讀馬君要潑一盆冷水：這條路高度依賴地理。它划算的前提，是當地既有成熟的區域供暖管網、又有真實的供暖需求——這恰恰是北歐的稟賦。美國多數 AI 數據中心所在的地方，既沒有鋪到家家戶戶的區域供暖管道，氣候上也未必需要長時間供暖，餘熱多半還是排進了大氣或冷卻塔。所以餘熱回收眼下更像一個由北歐氣候與基建共同成就的特例，而非可以全球複製的普適解——能不能落地，先要問一句「這裡有沒有人需要這份熱、又有沒有管子把它送過去」。

PUE 之上：每瓦算力才是更大的那根槓桿

把視角再往上抬一層，會發現 PUE 其實只管了「機房這一層的損耗」，卻管不到一個更大的問題：那些真正喂進芯片的電，到底產出了多少算力。

這是 PUE 這個指標的盲區。一座 PUE 做到 1.1 的機房，如果裡面塞的是上一代低效芯片，每度電產出的算力照樣有限；反過來，換上每瓦性能更高的新芯片，即便機房 PUE 沒變，同樣的電也能算出更多東西。機房省電（PUE 與液冷）是在分母上摳零頭，而芯片本身的每瓦性能，才是分子上的大頭。

這恰恰是英偉達每一代產品最用力宣傳的賣點。按英偉達官方的說法，GB200 NVL72 在大模型推理這類負載上，單位能耗較同等數量的上一代 H100 最高可降約 25 倍^[19]——這是廠商口徑、針對特定推理場景，實際增益隨工作負載而變，但方向清楚：每一代芯片在「每瓦能算多少」上的躍升，是比機房節能大得多的能效槓桿。黃仁勳反覆講的「每瓦 token」，底層邏輯就在這裡。

但這裡藏著一個讓所有能效敘事都尷尬的悖論：芯片越省電、單位算力越便宜，需求反而被刺激得越猛，總耗電不降反升——這正是經濟學裡的傑文斯悖論。芯片的每瓦性能這幾年提升了數倍，但全球數據中心的總用電不僅沒降，反而預計從 2024 年的約 415TWh 翻倍到 2030 年的約 945TWh、約佔屆時全球總用電的 3%，其中 AI 優化型數據中心的增長更猛、預計翻兩番有餘^[10]^[11]。能效的每一分進步，都在被暴漲的需求悄悄吃掉。

能效是槓桿，不是發電機

把這幾筆賬並起來，讀馬君的判斷是：能效是 AI 擴張裡一根真實、但有限的槓桿。

它真實，因為每一分都被規模放大——PUE 每降 0.1、WUE 每省一點，乘以數百萬張 GPU，省下的電和水都是可觀的絕對數。一座園區把 PUE 從 1.5 做到 1.1，省出的容量足夠多喂相當一片機櫃的算力，這就是「不增發一度電，卻喂下更多算力」的含義。

它有限，因為能效只是分母上的優化，不憑空創造一度電。當行業平均 PUE 還停在 1.5、而頭部已逼近 1.1 的物理漸近線，往下摳的空間越來越薄——從 1.56 到 1.1 省了三成，從 1.1 到 1.05 只剩幾個百分點。把 AI 的電力難題全指望能效，是把槓桿當成了發電機。前兩篇講的電網與核電，仍是分子上繞不開的硬仗；省電與發電，是同一道題的兩面，缺一不可。

接下來 6 到 12 個月，盯這幾個可核查的指標

這一環的進展，不靠口號，靠幾個能逐季對賬的硬數字。讀馬君建議讀懂AI時代的讀者盯住這幾條：

超大規模廠商的年度 PUE 是否繼續逼近 1.1。 Google、Meta、微軟、AWS 每年的可持續/ESG 報告裡都會披露機隊 PUE；看頭部是穩在 1.08–1.09，還是被 AI 高密度負載頂回去。同時看行業平均（Uptime 的年度調查）那條 1.5 的線有沒有鬆動。
新建 AI 園區的液冷滲透率。 看新公佈的超大規模園區裡，液冷（尤其 D2C）佔多大比例、有沒有浸沒式的規模化案例落地——這是「液冷從選項變前提」是否兌現的直接證據。
下一代芯片的散熱路線。 GB300、以及英偉達路線圖後續平臺的機架功率會不會繼續往上衝、是否倒逼更激進的冷卻方案。功率密度每抬一檔，風冷的退場就快一步。
WUE 的披露透明度。 看更多廠商是否開始像報 PUE 那樣、逐年公開 WUE 和絕對耗水量，尤其在缺水地區的園區。水這筆賬能不能從「估算」走向「對賬」，本身就是一個信號。

能效不會上頭條，但它是 AI 擴張裡那根一直在悄悄起作用的槓桿。電網和核電決定了池子裡有多少水，而 PUE 和液冷，決定了同樣一池水能養活多少算力。

AI 的電從哪來（三）：把電用到極致——數據中心 PUE、液冷，與被算力規模放大的每一點能效

一個被規模放大的小數：PUE 是什麼

行業平均卡在 1.5，超大規模廠商已逼近 1.1

當機架衝到 120kW：液冷從選項變成前提

冷板還是泡進油裡：兩條液冷路線的分野

別隻盯 PUE：液冷也有它的賬單和陰影

被 PUE 遮住的另一筆賬：耗水

液冷的意外紅利：熱也能並進供暖管網

PUE 之上：每瓦算力才是更大的那根槓桿

能效是槓桿，不是發電機

接下來 6 到 12 個月，盯這幾個可核查的指標

常見問題

參考來源

一個被規模放大的小數：PUE 是什麼

行業平均卡在 1.5，超大規模廠商已逼近 1.1

當機架衝到 120kW：液冷從選項變成前提

冷板還是泡進油裡：兩條液冷路線的分野

別隻盯 PUE：液冷也有它的賬單和陰影

被 PUE 遮住的另一筆賬：耗水

液冷的意外紅利：熱也能並進供暖管網

PUE 之上：每瓦算力才是更大的那根槓桿

能效是槓桿，不是發電機

接下來 6 到 12 個月，盯這幾個可核查的指標

常見問題

參考來源

同系列往期

相關每日新聞