硬件可以重造,軟件生態卻要重新長出來。英偉達最深的護城河,從來不是某一顆 GPU,而是那套讓全世界開發者都離不開它的軟件——CUDA。
上一篇《護城河在漏水?》裡,我們拆了英偉達硬件被定製 ASIC 圍剿的故事,留下一個結論:就算 GPU 份額被蠶食,CUDA 生態仍是英偉達最難被複制的那道牆。 這一篇,我們就來拆這道牆——它到底有多厚、正被誰鑿、以及一個比「誰能複製 CUDA」更要命的問題:這個行業,還需不需要 CUDA?
一、先講清楚:CUDA 為什麼是「最深的牆」
CUDA 不是一顆芯片,而是英偉達從 2007 年起、用近二十年時間壘起來的一整套軟件棧:編程模型、編譯器,以及 cuDNN、cuBLAS、TensorRT 等覆蓋深度學習與科學計算的加速庫。它把 GPU 從「圖形專用芯片」變成了「通用並行計算引擎」,也順手把全世界的 AI 代碼、框架與人才,一併綁在了自己身上。
它的厚度體現在三層疊加:主流框架(PyTorch、TensorFlow)默認跑在 CUDA 上;海量歷史代碼與算子庫是按 CUDA 寫的;一整代開發者的肌肉記憶也是 CUDA。三者咬合,遷移成本被推到極高——這正是為什麼業內普遍認為,CUDA 的價值不亞於英偉達的硬件本身。今天買一張 AI 加速卡,本質上買的是它背後的軟件生態,而不是那塊硅。[11]
落到數字:英偉達在 AI 加速器市場握有約 80% 的份額,而 CUDA 在 AI 開發者中的滲透率長期被引用為同一量級。[1] 一道二十年的牆,不是一年能拆的。
二、結論先行
一句話:牆還在、而且很厚;但 2026 年,它第一次被三股力量同時鑿。真正危險的不是「誰能複製 CUDA」,而是「繞過 CUDA」——當抽象層上移,CUDA 正從『唯一入口』變成『可替換的後端之一』。
拆開看:
- 三股鑿牆力量——AMD 的開源 ROCm、OpenAI 的 Triton(+PyTorch 編譯器)、華為開源的 CANN,路徑各異,但都指向同一面牆。[1][6][8][9]
- 最致命的一招是「架空」而非「複製」——多數推理負載如今跑在 vLLM、SGLang 這類框架上,開發者只追求「每秒多少 token」,根本不直接碰 CUDA。[6][7]
- 但護城河遠未失守——CUDA 仍是約 80% 開發者的默認選項,剩餘的硬骨頭(自定義算子、訓練側)短期難被替代。[1]
- 英偉達的應對,是把牆「加寬」——用 CUDA-X、下沉 PC 把 CUDA 從「訓練標準」做成「從雲到端的跨層標準」。
三、鑿牆的三股力量(數據模塊)
| 力量 | 路徑 | 2026 進度 | 來源 |
|---|---|---|---|
| AMD ROCm 7 | 開源軟件棧,硬剛 CUDA | 支持 FP4/FP8、推理較上代提速約 3.5×;PyTorch/vLLM day-zero 支持;「ROCm everywhere」鋪到 Windows 與消費級 Radeon;MI450 計劃 2H2026 出貨、拿下 Meta 6GW 大單 | [1][3][12] |
| OpenAI Triton + PyTorch | 不復制 CUDA,而是把它「架空」 | Triton 是 PyTorch 2.x 默認 kernel 層,torch.compile 默認下降到 Triton;vLLM 的注意力後端用 Triton 寫成,可跨 NVIDIA/AMD 運行 | [5][6][7] |
| 華為 CANN | 國產替代,繞開出口管制 | Ascend 的 CUDA 對標棧,計劃年底前開源;經 torch_npu 適配讓 PyTorch 模型跑昇騰;但成熟度與易用性差距仍大 | [9][10] |
AMD ROCm:從「能跑」到「敢押注」
AMD 的策略是「開源對閉源」。ROCm 7 補上了 FP4/FP8 低精度、給 PyTorch 和 vLLM 做了 day-zero 支持,還把棧鋪到 Windows 和消費級 Radeon,讓開發者能在遊戲 PC 上寫、到雲上跑。[1] 更有分量的信號是訂單:Meta 為 MI450 押下 6GW 級承諾。[12] 當一家超大規模廠商敢在這個體量上壓注 ROCm,說明它的可靠性已經邁過了某條線——哪怕離 CUDA 還遠。
OpenAI Triton:最危險的不是對手,是「中間層」
如果說 ROCm 是正面攻牆,Triton 乾的是「把牆架空」。它讓開發者用 Python 寫 GPU kernel、一次寫成可跨 NVIDIA 與 AMD 硬件運行,省掉手工把 CUDA 移植成 HIP 的活。[6] 關鍵在於它的位置:Triton 已是 PyTorch 2.x 的默認 kernel 層,torch.compile 默認下降到 Triton;vLLM 的注意力後端也用 Triton 寫成。[5][7] 這意味著——絕大多數開發者其實已經不直接寫 CUDA 了,他們寫 PyTorch、寫 Triton,CUDA 退到了看不見的底層。
華為 CANN:成熟度換地緣空間
華為把昇騰的 CANN 開源,計劃年底前落地,意在出口管制之下托起一個國產 AI 軟件生態。[9][10] 它已能經 torch_npu 適配跑 PyTorch 模型。但 CANN 2018 年才起步,對上近二十年持續迭代的 CUDA,成熟度與易用性差距明顯,有開發者直言昇騰「難用且不穩定」。[10] 它換來的更多是地緣騰挪空間,而非短期內的生態平替。
四、真正的變量:行業「還需不需要 CUDA」
把三股力量連起來看,會發現一個比「複製 CUDA」更深的轉變:問題正在從「能不能寫 CUDA」變成「還要不要寫 CUDA」。
業內一個被反覆印證的觀察是:把代碼從 CUDA 轉出來,已經不再是常見需求——因為多數推理客戶用的是 vLLM 或 SGLang,跑的是少數幾個主流大模型,目標只有一個:每秒榨出盡可能多的 token。[6][7] 在這種工作流裡,CUDA 是不是唯一後端,開發者根本不關心。
這正是 CUDA 鎖定最實質的鬆動來源——不在芯片層,而在模型層:
- 抽象層上移——
torch.compile→ Triton 這條鏈,把「寫給特定硬件的 kernel」變成了編譯器的活。開發者面對的是框架,不是 CUDA。[5] - 推理框架標準化——vLLM/SGLang 成了事實標準,它們把「在哪塊芯片上跑」抽象成可替換的後端。[7]
- 於是 chips 層的鎖定被 models 層架空——CUDA 沒有被打敗,它只是被挪到了「看不見、也不必在意」的位置。
用「五層蛋糕」的話說:CUDA 是 chips 層與 models 層之間的那道軟件黏合劑;當模型層自己長出了通用的抽象,黏合劑就不再是唯一的。
五、英偉達的加固:把牆「加寬」
英偉達當然清楚這一點,它的應對不是把牆修得更高,而是修得更寬——讓 CUDA 無處不在,從而把「繞過它」的成本重新抬上去。
- CUDA-X 庫持續擴張,把優化算子的護城河延伸到推理、數據科學、生物醫藥等更多領域;
- 下沉到 PC——Computex 2026 上,英偉達把完整 CUDA 與 RTX 生態隨 RTX Spark 芯片搬進 Windows PC,喊出「CUDA 無處不在」,意在讓從雲端到桌面、到 Jetson 邊緣、到機器人,用的都是同一套 CUDA。
這一步的算盤是:當 CUDA 不只是「數據中心訓練的標準」,而是從雲到端到機器人的跨層標準,開發者要「繞過」它的成本就不止是換個推理後端,而是放棄一整條貫穿五層的工具鏈。護城河從「深」轉向「廣」——這與首篇裡英偉達「每一層佔位、每一層收租」的邏輯,是同一套打法。
六、量級校準與反方(防一邊倒)
鑿牆是真的,但「牆要塌了」遠沒到。
- CUDA 仍是默認選項。 它在 AI 開發者中約 80% 的滲透不是一年能逆轉的;ROCm 雖在 PyTorch/vLLM 上達到了生產可用,但剩餘差距集中在 TensorRT-LLM、FlashAttention 3、NVIDIA NIM 容器,以及任何帶 CUDA 專用自定義 kernel 的流水線。[1]
- 「能跑」不等於「好用」。 多家評測的共識是:ROCm 不會一夜補平 CUDA,趨勢雖明確,但仍是「一步接一步」。[2][4] CANN 的成熟度差距更大。[10]
- 訓練側幾乎沒動。 上述鬆動主要發生在推理;前沿模型的訓練,仍高度依賴 CUDA 的成熟工具鏈與自定義算子。
- 份額預測只是預測。 有云服務商(Tensorwave)預計 AMD 2026 年可拿下 20%~25% 的份額(第三方預測,不代表本文立場)[1]——這類數字反映的是趨勢與情緒,不等於既成事實。
所以更準確的說法是:CUDA 不會被「複製」掉,但它「唯一性」的溢價正在被抽象層稀釋——尤其在推理這一側。而唯一性,恰恰是過去支撐英偉達約 75% 毛利率的軟實力之一。[13]
七、五層視角:一道「銜接層」的鬆動
從「五層蛋糕」看,CUDA 的特殊在於它不屬於某一層,而是 chips 層與 models 層之間的銜接層。這道銜接層一旦從「唯一」變成「可替換」,傳導是雙向的:
- 向下(chips)——硬件的差異化更難只靠「軟件不兼容」來維持,AMD、華為、乃至各家自研芯片,第一次有了「軟件夠用」的底氣;
- 向上(models)——模型層獲得了對硬件的議價權與可移植性,“在哪塊芯片上跑”從戰略問題降級為工程選項。
這也是「讀懂老黃」堅持用五層框架的意義:很多人盯著芯片層的份額之爭,但這一代真正的勝負手,可能在那道把芯片與模型粘起來的軟件銜接層上。
八、結語
英偉達最深的護城河,依然在它腳下——CUDA 不會在一兩年裡被誰掀翻。但 2026 年的轉變在於:對手們終於不再執著於”造一個更好的 CUDA”,而是合力把行業帶到”不必依賴 CUDA”的那一側。 一個被架空的標準,哪怕仍在運行,溢價也會慢慢褪色。
老黃的反制——讓 CUDA 無處不在——是在用「廣度」贖回「唯一性」。這堵牆未來是更厚還是更空,取決於推理這條主戰場上,開發者最終是繼續站在 CUDA 裡,還是站在 CUDA 之上。這,正是我們這個系列要替你長期盯住的地方。
延伸閱讀
- 本系列首篇:護城河在漏水?老黃的 GPU 帝國,正被一群「自己造芯片」的客戶包圍 —— 硬件層的圍剿與反制。
- 想先搞懂概念:CUDA 是什麼 · 百科詞條 —— 英偉達最堅固的軟件護城河。
- 順著推理這條主戰場往下看:一個 token 幾分錢——AI 工廠的推理經濟學 —— 本系列第三篇。