把一座數據中心拆開看,它正在變成一座工廠——原料是電,產品是 token。而衡量這座工廠的,最後只剩一個指標:每生產一個 token,要花多少錢。
黃仁勳這兩年反覆改口號:從「算力即營收」,到今年的這一句——每個 token 的成本(cost per token)才是唯一重要的指標。[1] 這不是文案升級,而是英偉達對一個新現實的承認:當生成式與智能體 AI 把數據中心變成「token 工廠」,推理取代訓練成為主負載,整座工廠的經濟性,就被壓縮成了一道除法——產出的智能 ÷ 燒掉的錢。[1][2]
承接前兩篇(硬件被定製 ASIC 圍剿、軟件 CUDA 被抽象層架空),這一篇我們換一個軸看英偉達的護城河:錢。推理的單位經濟學,正在重寫它的戰場。
一、新計量單位:cost per token
過去衡量一座數據中心,看的是峰值算力(FLOPS)、GPU 數量。但當 AI 的主要工作從「訓練一個模型」變成「對外服務億萬次調用」,計量單位也換了——變成每個 token 的成本。
英偉達自己給這件事起了個名字:AI 工廠。在它的敘事裡,數據中心不再是成本中心,而是一座把電力與算力「製造」成智能、再以 token 形式出貨的工廠;推理是它的主產線,token 是它的產品。[1][2] 一旦接受這個框架,競爭的核心就只剩一句話:誰能把每個 token 的生產成本壓到最低。
二、結論先行
一句話:推理單價正在崩塌——一年降約 10 倍;但這不是英偉達的危機,而是它主動發起的戰爭。誰能把 cost per token 打到最低,誰就拿走 AI 工廠的下一筆預算;英偉達寧可自己先把價格卷下去,也不願把推理這塊陣地讓給定製 ASIC。
拆開看:
- 單價在崩塌——可比能力檔位的推理單價,約一年降一個數量級。[2][9]
- 但總賬在膨脹——單價越跌,用量漲得越兇,推理已佔到企業 AI 預算的約 85%。[3]
- 推理成了主戰場——這正是定製 ASIC 最有性價比、也是英偉達必須守的地方。[13]
- 英偉達「以攻為守」——用 Rubin CPX 專用推理芯片 + Vera Rubin「降 10×」,主動把單價打下去。[10][11]
三、單價崩塌(數據模塊)
以下數字多來自第三方機構與行業測算,口徑不一、宜看方向而非絕對值(已逐條歸因):
| 維度 | 數量級 | 來源 |
|---|---|---|
| 可比能力檔推理單價 | 約從 2025 年初 0.06 美元/千 token,降到 2026 年中約 0.006 美元/千 token(≈ 10×) | [2] |
| 主流廠商平均百萬 token 價 | 一年內約從 10 美元降到 2.5 美元 | [9] |
| 半導體側推理單 token 成本 | 每年約降 60%~70% | [2] |
| 長期預測 | 有機構(Gartner)預計到 2030 年再降約 90% | [3] |
這條曲線背後,是製程、架構、量化(FP4/FP8)、推理框架優化多重疊加的結果。趨勢很清楚:單 token 越來越不值錢。
四、悖論:單價跌,總賬卻漲
最反直覺的一點是:單價暴跌,企業的 AI 賬單卻在飆升。
- 2026 年,推理已佔到企業 AI 預算的約 85%;企業的平均 AI 預算,從 2024 年的約 120 萬美元漲到 2026 年的約 700 萬美元。[3]
- 原因是用量的爆炸抵消了單價的下跌:智能體(agentic)工作流在 2026 年的調用量,是按 2024 年單價做的預算根本沒法想象的——一個任務背後可能是成百上千次模型調用。[3][4][7]
這是 AI 時代的「傑文斯悖論」:東西越便宜,反而用得越多、總花費越大。 高盛因此判斷,智能體用量的激增會成為科技業現金流的新引擎。[7] 但硬幣的另一面是虧損:有測算稱,按當前推理成本,OpenAI 每賺 1 美元收入要倒貼約 1.35 美元(第三方測算,不代表本文立場)。[8]
對英偉達而言,這個悖論是好消息:只要總用量還在指數級膨脹,哪怕單 token 利潤變薄,算力的總需求仍在做大。 這也是它敢於主動卷低單價的底氣。
五、為什麼推理成了主戰場
把時間軸拉長,AI 算力的重心正從訓練滑向推理。訓練是一次性的「教模型」,推理是持續的「用模型」;當模型逐漸定型、應用開始放量,推理的需求曲線就蓋過了訓練。
而推理恰恰是定製 ASIC 最有優勢的地方——工作負載重複、可預測,追求極致單位成本。第三方測算顯示,生產級推理上定製硅相對通用 GPU 的 TCO 優勢可達約 65%,2026 年定製芯片出貨增速約 45%、而 GPU 約 16%。[13] 這正是首篇裡「圍剿」的主戰場,也是英偉達這一篇必須正面應對的原因:推理是 apps 層放量的命門,丟了推理的成本優勢,就等於把 AI 工廠的下一筆預算拱手讓人。
六、英偉達的打法:把單價自己先打下去
面對單價崩塌,英偉達沒有守價,而是「以攻為守」——親手把 cost per token 卷得更低,用成本優勢鎖住推理份額。
- 造一顆專用推理芯片:Rubin CPX,專為超長上下文(100 萬+ token)推理優化,犧牲訓練通用性換 token 服務效率,計劃 2026 年底上市。[10]
- 整代平臺對著 TCO 去:下一代 Vera Rubin 平臺對外承諾把推理成本壓低約 10×——直指定製芯片最鋒利的那把刀。[11]
- 把敘事統一到「每 token 成本」:黃仁勳反覆強調 cost per token 是唯一指標,本質是把競爭拉回英偉達最能規模化的維度——全棧優化。[1]
提示:上述「10×」「65%」「45%/16%」等均為廠商目標值或第三方測算,獨立大規模實測尚未跟上,宜保守看待。
七、反方與不確定性(防一邊倒)
- 泡沫論的警告。 有媒體(Fortune)警告,飆升的芯片資本開支疊加壓不下來的 token 成本,可能反過來拖累整個 AI 經濟(第三方觀點,不代表本文立場)。[6]
- 「用量補單價」能撐多久? 這套邏輯依賴 agentic 用量持續指數級增長;一旦企業 AI 預算見頂、或落地不及預期,單價崩塌就會直接傳導為收入壓力。[5]
- 單價崩塌侵蝕誰的毛利? 推理走向「白菜價」,與英偉達約 75% 的毛利率天然存在張力[12]——它能否在卷低 cost per token 的同時守住利潤率,是後續季度要驗證的關鍵。
- 數字口徑不一。 文中單價降幅來自不同機構、不同能力檔的測算,應看方向、不宜當精確值。[2][9]
八、五層視角:token 如何在五層之間傳導
從「五層蛋糕」看,推理經濟學是一條貫穿上三層的傳導鏈:
- 基礎設施層(infra)——AI 工廠的核算口徑從「峰值算力」換成「單位 token 成本」,重塑了數據中心的選型與 capex 邏輯;
- 模型層(models)——單價崩塌讓「調用模型」的門檻驟降,推動模型從「奢侈品」變成「公用事業」;
- 應用層(apps)——單價越低、智能體調用越敢放量,apps 層的繁榮反過來把算力需求做大,閉環回到 infra。
這條鏈解釋了一個表面矛盾:為什麼單 token 越來越便宜,AI 的總算力需求卻越來越大。對英偉達,真正的勝負不在某一天的 token 報價,而在它能否在這條傳導鏈的每一環,都保持「每 token 成本最低」的位置。
結語
當數據中心變成 token 工廠,英偉達的護城河也換了度量衡:不再是「最快的芯片」,而是「最便宜的 token」。單價崩塌看似兇險,卻恰是黃仁勳主動選擇的戰場——因為他算的是另一筆賬:只要總用量還在爆炸,把單價打到最低的人,就能拿走 AI 工廠越來越大的總預算。
這場戰爭英偉達打得起,但打不打得贏,要看定製 ASIC 與 AMD 在推理性價比上逼得有多緊。下一篇《價格戰》,我們就來算這筆賬。
延伸閱讀
- 本系列首篇:護城河在漏水?老黃的 GPU 帝國,正被一群「自己造芯片」的客戶包圍 —— 推理為何是定製 ASIC 的主戰場。
- 上一篇:CUDA 還守得住嗎?英偉達最深的那堵牆,與正在鑿牆的人 —— 軟件護城河的鬆動。
- 概念打底:AI 工廠 · 百科詞條 —— 把電與算力「製造」成 token 的範式。