什麼是「每 token 成本」(cost per token)?

這是衡量 AI 推理經濟性的核心指標,即資料中心每生成一個 token 要花多少錢。黃仁勳已把輝達的口號從「算力即營收」改為「每個 token 的成本才是唯一重要的指標」。

什麼是「AI 工廠」?

這是輝達提出的敘事框架,把資料中心看成一座工廠:原料是電力與算力,產品是 token,推理是主產線。一旦接受這個框架,競爭核心就變成誰能把每個 token 的生產成本壓到最低。

推理單價一年降了多少?

按可比能力檔位的第三方測算,推理單價約一年降一個數量級(約 10 倍),例如從 2025 年初約 0.06 美元/千 token 降到 2026 年中約 0.006 美元/千 token;主流廠商平均百萬 token 價一年內約從 10 美元降到 2.5 美元。這些數字口徑不一,宜看方向而非絕對值。

為什麼單價暴跌,企業的 AI 賬單反而上漲?

因為用量的爆炸抵消了單價的下跌:2026 年推理已佔企業 AI 預算約 85%,企業平均 AI 預算從 2024 年約 120 萬美元漲到 2026 年約 700 萬美元。這被文中稱為 AI 時代的「傑文斯悖論」——越便宜,反而用得越多、總花費越大。

為什麼推理成了輝達必須守的主戰場?

AI 算力重心正從一次性的訓練滑向持續的推理,而推理工作負載重複、可預測,恰是定製 ASIC 最有價效比的地方。第三方測算顯示生產級推理上定製矽相對通用 GPU 的 TCO 優勢可達約 65%,2026 年定製晶片出貨增速約 45%、GPU 約 16%。

輝達面對推理單價崩塌怎麼應對?

輝達選擇「以攻為守」,親手把單價打得更低:推出專為超長上下文(100 萬+ token)推理最佳化的 Rubin CPX 晶片(計劃 2026 年底上市),並讓下一代 Vera Rubin 平台對外承諾把推理成本壓低約 10 倍。這些數字為廠商目標值,獨立大規模實測尚未跟上。

推理單價崩塌對輝達毛利率意味著什麼?

推理走向「白菜價」與輝達約 75% 的毛利率存在天然張力,它能否在卷低每 token 成本的同時守住利潤率,是後續季度要驗證的關鍵。

護城河之三：一個 token 幾分錢——AI 工廠的推理經濟學，與輝達的新戰場 · 深度報道

把一座資料中心拆開看，它正在變成一座工廠——原料是電，產品是 token。而衡量這座工廠的，最後只剩一個指標：每生產一個 token，要花多少錢。

黃仁勳這兩年反覆改口號：從「算力即營收」，到今年的這一句——每個 token 的成本（cost per token）才是唯一重要的指標。^{^[1]} 這不是文案升級，而是輝達對一個新現實的承認：當生成式與智慧體 AI 把資料中心變成「token 工廠」，推理取代訓練成為主負載，整座工廠的經濟性，就被壓縮成了一道除法——產出的智慧 ÷ 燒掉的錢。^{^[1]^[2]}

承接前兩篇（硬體被定製 ASIC 圍剿、軟體 CUDA 被抽象層架空），這一篇我們換一個軸看輝達的護城河：錢。推理的單位經濟學，正在重寫它的戰場。

一、新計量單位：cost per token

過去衡量一座資料中心，看的是峰值算力（FLOPS）、GPU 數量。但當 AI 的主要工作從「訓練一個模型」變成「對外服務億萬次呼叫」，計量單位也換了——變成每個 token 的成本。

輝達自己給這件事起了個名字：AI 工廠。在它的敘事裡，資料中心不再是成本中心，而是一座把電力與算力「製造」成智慧、再以 token 形式出貨的工廠；推理是它的主產線，token 是它的產品。^{^[1]^[2]} 一旦接受這個框架，競爭的核心就只剩一句話：誰能把每個 token 的生產成本壓到最低。

二、結論先行

一句話：推理單價正在崩塌——一年降約 10 倍；但這不是輝達的危機，而是它主動發起的戰爭。誰能把 cost per token 打到最低，誰就拿走 AI 工廠的下一筆預算；輝達寧可自己先把價格卷下去，也不願把推理這塊陣地讓給定製 ASIC。

拆開看：

單價在崩塌——可比能力檔位的推理單價，約一年降一個數量級。^{^[2]^[9]}
但總賬在膨脹——單價越跌，用量漲得越兇，推理已佔到企業 AI 預算的約 85%。^{^[3]}
推理成了主戰場——這正是定製 ASIC 最有價效比、也是輝達必須守的地方。^{^[13]}
輝達「以攻為守」——用 Rubin CPX 專用推理晶片 + Vera Rubin「降 10×」，主動把單價打下去。^{^[10]^[11]}

三、單價崩塌（資料模組）

以下數字多來自第三方機構與行業測算，口徑不一、宜看方向而非絕對值（已逐條歸因）：

維度	數量級	來源
可比能力檔推理單價	約從 2025 年初 0.06 美元/千 token，降到 2026 年中約 0.006 美元/千 token（≈ 10×）	^{^[2]}
主流廠商平均百萬 token 價	一年內約從 10 美元降到 2.5 美元	^{^[9]}
半導體側推理單 token 成本	每年約降 60%～70%	^{^[2]}
長期預測	有機構（Gartner）預計到 2030 年再降約 90%	^{^[3]}

這條曲線背後，是製程、架構、量化（FP4／FP8）、推理框架最佳化多重疊加的結果。趨勢很清楚：單 token 越來越不值錢。

四、悖論：單價跌，總賬卻漲

最反直覺的一點是：單價暴跌，企業的 AI 賬單卻在飆升。

2026 年，推理已佔到企業 AI 預算的約 85%；企業的平均 AI 預算，從 2024 年的約 120 萬美元漲到 2026 年的約 700 萬美元。^{^[3]}
原因是用量的爆炸抵消了單價的下跌：智慧體（agentic）工作流在 2026 年的呼叫量，是按 2024 年單價做的預算根本沒法想象的——一個任務背後可能是成百上千次模型呼叫。^{^[3]^[4]^[7]}

這是 AI 時代的「傑文斯悖論」：東西越便宜，反而用得越多、總花費越大。 高盛因此判斷，智慧體用量的激增會成為科技業現金流的新引擎。^{^[7]} 但硬幣的另一面是虧損：有測算稱，按當前推理成本，OpenAI 每賺 1 美元收入要倒貼約 1.35 美元。^{^[8]}

對輝達而言，這個悖論是好訊息：只要總用量還在指數級膨脹，哪怕單 token 利潤變薄，算力的總需求仍在做大。 這也是它敢於主動卷低單價的底氣。

五、為什麼推理成了主戰場

把時間軸拉長，AI 算力的重心正從訓練滑向推理。訓練是一次性的「教模型」，推理是持續的「用模型」；當模型逐漸定型、應用開始放量，推理的需求曲線就蓋過了訓練。

而推理恰恰是定製 ASIC 最有優勢的地方——工作負載重複、可預測，追求極致單位成本。第三方測算顯示，生產級推理上定製矽相對通用 GPU 的 TCO 優勢可達約 65%，2026 年定製晶片出貨增速約 45%、而 GPU 約 16%。^{^[13]} 這正是首篇裡「圍剿」的主戰場，也是輝達這一篇必須正面應對的原因：推理是 apps 層放量的命門，丟了推理的成本優勢，就等於把 AI 工廠的下一筆預算拱手讓人。

六、輝達的打法：把單價自己先打下去

面對單價崩塌，輝達沒有守價，而是「以攻為守」——親手把 cost per token 卷得更低，用成本優勢鎖住推理份額。

造一顆專用推理晶片：Rubin CPX，專為超長上下文（100 萬+ token）推理最佳化，犧牲訓練通用性換 token 服務效率，計劃 2026 年底上市。^{^[10]}
整代平台對著 TCO 去：下一代 Vera Rubin 平台對外承諾把推理成本壓低約 10×——直指定製晶片最鋒利的那把刀。^{^[11]}
把敘事統一到「每 token 成本」：黃仁勳反覆強調 cost per token 是唯一指標，本質是把競爭拉回輝達最能規模化的維度——全棧最佳化。^{^[1]}

提示：上述「10×」「65%」「45%／16%」等均為廠商目標值或第三方測算，獨立大規模實測尚未跟上，宜保守看待。

七、反方與不確定性（防一邊倒）

泡沫論的警告。 有媒體（Fortune）警告，飆升的晶片資本開支疊加壓不下來的 token 成本，可能反過來拖累整個 AI 經濟。^{^[6]}
「用量補單價」能撐多久？ 這套邏輯依賴 agentic 用量持續指數級增長；一旦企業 AI 預算見頂、或落地不及預期，單價崩塌就會直接傳導為收入壓力。^{^[5]}
單價崩塌侵蝕誰的毛利？ 推理走向「白菜價」，與輝達約 75% 的毛利率天然存在張力^{^[12]}——它能否在卷低 cost per token 的同時守住利潤率，是後續季度要驗證的關鍵。
數字口徑不一。 文中單價降幅來自不同機構、不同能力檔的測算，應看方向、不宜當精確值。^{^[2]^[9]}

八、五層視角：token 如何在五層之間傳導

從「五層蛋糕」看，推理經濟學是一條貫穿上三層的傳導鏈：

基礎設施層（infra）——AI 工廠的核算口徑從「峰值算力」換成「單位 token 成本」，重塑了資料中心的選型與 capex 邏輯；
模型層（models）——單價崩塌讓「呼叫模型」的門檻驟降，推動模型從「奢侈品」變成「公用事業」；
應用層（apps）——單價越低、智慧體呼叫越敢放量，apps 層的繁榮反過來把算力需求做大，閉環回到 infra。

這條鏈解釋了一個表面矛盾：為什麼單 token 越來越便宜，AI 的總算力需求卻越來越大。對輝達，真正的勝負不在某一天的 token 報價，而在它能否在這條傳導鏈的每一環，都保持「每 token 成本最低」的位置。

結語

當資料中心變成 token 工廠，輝達的護城河也換了度量衡：不再是「最快的晶片」，而是「最便宜的 token」。單價崩塌看似兇險，卻恰是黃仁勳主動選擇的戰場——因為他算的是另一筆賬：只要總用量還在爆炸，把單價打到最低的人，就能拿走 AI 工廠越來越大的總預算。

這場戰爭輝達打得起，但打不打得贏，要看定製 ASIC 與 AMD 在推理價效比上逼得有多緊。下一篇《價格戰》，我們就來算這筆賬。

護城河之三：一個 token 幾分錢——AI 工廠的推理經濟學，與輝達的新戰場

一、新計量單位：cost per token

二、結論先行

三、單價崩塌（資料模組）

四、悖論：單價跌，總賬卻漲

五、為什麼推理成了主戰場

六、輝達的打法：把單價自己先打下去

七、反方與不確定性（防一邊倒）

八、五層視角：token 如何在五層之間傳導

結語

延伸閱讀

常見問題

參考來源

一、新計量單位：cost per token

二、結論先行

三、單價崩塌（資料模組）

四、悖論：單價跌，總賬卻漲

五、為什麼推理成了主戰場

六、輝達的打法：把單價自己先打下去

七、反方與不確定性（防一邊倒）

八、五層視角：token 如何在五層之間傳導

結語

延伸閱讀

常見問題

參考來源

同系列往期 檢視完整系列 →

相關百科

跨站相關詞條

相關每日新聞

同系列往期檢視完整系列 →