智算中心競爭邏輯轉向“Token 工廠”：從堆 GPU 到榨 Token

AI基礎設施競爭焦點從GPU數量轉向Token吞吐量效率，最大化單位GPU和功耗產出Token成為新目標。

AI 基礎設施的競爭邏輯正在發生根本性轉變。長江證券最新研報提出，行業正從“堆 GPU”的資源競賽，邁入以 Token 吞吐量為核心產出指標的效率競爭時代。這一轉變的核心載體被定義為 “Token 工廠”——一種將電力、GPU、網絡和模型高效轉化為持續 Token 流，並最終兌現為智能服務收入的新一代 AI 基礎設施。

過去，在 scaling law 的驅動下，智算中心的北極星指標是儘可能多地堆砌 GPU。誰擁有最多的 GPU，誰似乎就掌握了行業話語權。但市場逐漸意識到，GPU 只是初始生產資料之一，最終市場需要的是具備生產力的 Token。Token 的生產還需要電力、網絡、調度能力和推理優化等多維能力的配合。單純擁有 GPU 數量而在其他環節存在短板，會導致同等量級的資源產生巨大浪費。

研報指出，Token 工廠的收入公式為 Token 調用量乘以 Token 定價，這使得其運營目標從簡單的算力提供，轉變為最大化單位 GPU 和單位功耗所產生的 Token 數量。競爭焦點因此從“擁有多少 GPU”轉向“如何讓 GPU 生產更多 Token”。在這一過程中，決定資源轉化效率的關鍵不再是硬件本身，而是覆蓋調度平臺、推理引擎、編譯器和模型優化的 AI 系統軟件棧。

調度層面的優化尤為關鍵。與傳統雲主要優化 CPU 利用率不同，AI 雲面臨 GPU 碎片化、KV Cache 碎片化和 Gang Scheduling 等獨特挑戰。報告列舉了多個行業實踐：英偉達通過 DCGM 系統解決 GPU 集群“看不見”的問題，為調度提供數據基礎；以 CoreWeave 為代表的 NeoCloud 將集群效率作為核心競爭力，通過拓撲感知調度和自動節點管理等系統級優化，顯著提升大規模訓練任務的 MFU；阿里巴巴與北大合作提出的 Aegaeon 系統，則將調度粒度從請求級細化到 Token 級，通過 token 級別的自動擴縮容技術，使有效吞吐量提升 1.5 到 9 倍，大幅減少了所需 GPU 數量。

另一大效率提升路徑是 芯模協同優化。隨著大模型部署進入規模化階段，單純依靠硬件升級已難持續提升系統效率，芯片架構、編譯器、推理框架與模型結構的聯合設計成為新的性能突破口。行業形成了大廠自研芯片與模型聯合設計、以及模型廠商與芯片廠商深度生態綁定兩條主要路徑。例如，阿里雲在 2026 年峰會上發佈了基於自研 AI 芯片 真武 M890 的磐久 AL128 超節點服務器，並升級百鍊推理平臺，通過上下文緩存、吞吐彈性調度和 Agentic RL 等技術，實現資源高效利用。同時，DeepSeek-V4 預覽版發佈當日，即實現了與華為昇騰、寒武紀等 8 家國產芯片的 Day0 同步適配，顯示出國產芯模協同的加速趨勢。

從產業格局看，Token 工廠的出現標誌著智算產業正式從資源競爭進入效率競爭階段。其產業鏈地位介於單純算力提供方與下游實體企業之間，與雲計算相近。未來，隨著 GPU 硬件逐漸標準化，AI 基礎設施的競爭優勢將越來越多地來自系統軟件能力。無論是海外的 NeoCloud、雲計算廠商，還是模型與芯片廠商，都將圍繞調度平臺、推理引擎和芯模協同持續構建差異化競爭力。對於投資者而言，這一趨勢意味著對 AI 基礎設施的評估框架需要從單純的硬件資產規模，轉向對軟件生態、調度效率與單位資源產出能力的綜合考量。

智算中心競爭邏輯轉向“Token 工廠”：從堆 GPU 到榨 Token

延伸閱讀

相關深度報道

相關每日新聞