CUDA 為什麼被稱為輝達最深的護城河?

CUDA 是輝達從 2007 年起用近二十年壘起的一整套軟體棧,含程式設計模型、編譯器及 cuDNN、cuBLAS、TensorRT 等加速庫。主流框架預設跑在它上面、海量歷史程式碼按它寫、一整代開發者的肌肉記憶也是它,三者咬合把遷移成本推到極高。

哪三股力量正在鑿 CUDA 這堵牆?

AMD 的開源 ROCm、OpenAI 的 Triton(加 PyTorch 編譯器)、華為開源的 CANN,路徑各異但都指向同一面牆。其中 ROCm 7 已支援 FP4/FP8、對 PyTorch 與 vLLM 做 day-zero 支援並拿下 Meta 6GW 大單;CANN 計劃年底前開源、意在出口管制下托起國產生態。

為什麼說「架空」CUDA 比「複製」CUDA 更致命?

因為多數推理負載如今跑在 vLLM、SGLang 這類框架上,開發者只追求每秒榨出盡可能多的 token,根本不直接碰 CUDA。Triton 已是 PyTorch 2.x 預設 kernel 層、torch.compile 預設下降到它,CUDA 正從「唯一入口」退到看不見的底層,變成可替換的後端之一。

輝達如何應對 CUDA 被架空?

它的應對不是把牆修更高,而是修更寬——讓 CUDA 無處不在。通過持續擴張 CUDA-X 庫、並在 Computex 2026 上把完整 CUDA 與 RTX 生態隨 RTX Spark 晶片搬進 Windows PC,喊出「CUDA 無處不在」,讓開發者繞過它的成本變成放棄一整條貫穿五層的工具鏈。

護城河之二：CUDA 還守得住嗎？輝達最深的那堵牆，與正在鑿牆的人 · 深度報道

硬體可以重造，軟體生態卻要重新長出來。輝達最深的護城河，從來不是某一顆 GPU，而是那套讓全世界開發者都離不開它的軟體——CUDA。

上一篇《護城河在漏水？》裡，我們拆了輝達硬體被定製 ASIC 圍剿的故事，留下一個結論：就算 GPU 份額被蠶食，CUDA 生態仍是輝達最難被複制的那道牆。 這一篇，我們就來拆這道牆——它到底有多厚、正被誰鑿、以及一個比「誰能複製 CUDA」更要命的問題：這個行業，還需不需要 CUDA？

一、先講清楚：CUDA 為什麼是「最深的牆」

CUDA 不是一顆晶片，而是輝達從 2007 年起、用近二十年時間壘起來的一整套軟體棧：程式設計模型、編譯器，以及 cuDNN、cuBLAS、TensorRT 等覆蓋深度學習與科學計算的加速庫。它把 GPU 從「圖形專用晶片」變成了「通用平行計算引擎」，也順手把全世界的 AI 程式碼、框架與人才，一併綁在了自己身上。

它的厚度體現在三層疊加：主流框架（PyTorch、TensorFlow）預設跑在 CUDA 上；海量歷史程式碼與運算元庫是按 CUDA 寫的；一整代開發者的肌肉記憶也是 CUDA。三者咬合，遷移成本被推到極高——這正是為什麼業內普遍認為，CUDA 的價值不亞於輝達的硬體本身。今天買一張 AI 加速卡，本質上買的是它背後的軟體生態，而不是那塊矽。^{^[11]}

落到數字：輝達在 AI 加速器市場握有約 80% 的份額，而 CUDA 在 AI 開發者中的滲透率長期被引用為同一量級。^{^[1]} 一道二十年的牆，不是一年能拆的。

二、結論先行

一句話：牆還在、而且很厚；但 2026 年，它第一次被三股力量同時鑿。真正危險的不是「誰能複製 CUDA」，而是「繞過 CUDA」——當抽象層上移，CUDA 正從『唯一入口』變成『可替換的後端之一』。

拆開看：

三股鑿牆力量——AMD 的開源 ROCm、OpenAI 的 Triton（＋PyTorch 編譯器）、華為開源的 CANN，路徑各異，但都指向同一面牆。^{^[1]^[6]^[8]^[9]}
最致命的一招是「架空」而非「複製」——多數推理負載如今跑在 vLLM、SGLang 這類框架上，開發者只追求「每秒多少 token」，根本不直接碰 CUDA。^{^[6]^[7]}
但護城河遠未失守——CUDA 仍是約 80% 開發者的預設選項，剩餘的硬骨頭（自定義運算元、訓練側）短期難被替代。^{^[1]}
輝達的應對，是把牆「加寬」——用 CUDA-X、下沉 PC 把 CUDA 從「訓練標準」做成「從雲到端的跨層標準」。

三、鑿牆的三股力量（資料模組）

力量	路徑	2026 進度	來源
AMD ROCm 7	開源軟體棧，硬剛 CUDA	支援 FP4／FP8、推理較上代提速約 3.5×；PyTorch／vLLM day-zero 支援；「ROCm everywhere」鋪到 Windows 與消費級 Radeon；MI450 計劃 2H2026 出貨、拿下 Meta 6GW 大單	^{^[1]^[3]^[12]}
OpenAI Triton ＋ PyTorch	不復制 CUDA，而是把它「架空」	Triton 是 PyTorch 2.x 預設 kernel 層，`torch.compile` 預設下降到 Triton；vLLM 的注意力後端用 Triton 寫成，可跨 NVIDIA／AMD 執行	^{^[5]^[6]^[7]}
華為 CANN	國產替代，繞開出口管制	Ascend 的 CUDA 對標棧，計劃年底前開源；經 `torch_npu` 適配讓 PyTorch 模型跑昇騰；但成熟度與易用性差距仍大	^{^[9]^[10]}

AMD ROCm：從「能跑」到「敢押注」

AMD 的策略是「開源對閉源」。ROCm 7 補上了 FP4／FP8 低精度、給 PyTorch 和 vLLM 做了 day-zero 支援，還把棧鋪到 Windows 和消費級 Radeon，讓開發者能在遊戲 PC 上寫、到雲上跑。^{^[1]} 更有分量的訊號是訂單：Meta 為 MI450 押下 6GW 級承諾。^{^[12]} 當一家超大規模廠商敢在這個體量上壓注 ROCm，說明它的可靠性已經邁過了某條線——哪怕離 CUDA 還遠。

OpenAI Triton：最危險的不是對手，是「中間層」

如果說 ROCm 是正面攻牆，Triton 乾的是「把牆架空」。它讓開發者用 Python 寫 GPU kernel、一次寫成可跨 NVIDIA 與 AMD 硬體執行，省掉手工把 CUDA 移植成 HIP 的活。^{^[6]} 關鍵在於它的位置：Triton 已是 PyTorch 2.x 的預設 kernel 層，torch.compile 預設下降到 Triton；vLLM 的注意力後端也用 Triton 寫成。^{^[5]^[7]} 這意味著——絕大多數開發者其實已經不直接寫 CUDA 了，他們寫 PyTorch、寫 Triton，CUDA 退到了看不見的底層。

華為 CANN：成熟度換地緣空間

華為把昇騰的 CANN 開源，計劃年底前落地，意在出口管制之下托起一個國產 AI 軟體生態。^{^[9]^[10]} 它已能經 torch_npu 適配跑 PyTorch 模型。但 CANN 2018 年才起步，對上近二十年持續迭代的 CUDA，成熟度與易用性差距明顯，有開發者直言昇騰「難用且不穩定」。^{^[10]} 它換來的更多是地緣騰挪空間，而非短期內的生態平替。

四、真正的變數：行業「還需不需要 CUDA」

把三股力量連起來看，會發現一個比「複製 CUDA」更深的轉變：問題正在從「能不能寫 CUDA」變成「還要不要寫 CUDA」。

業內一個被反覆印證的觀察是：把程式碼從 CUDA 轉出來，已經不再是常見需求——因為多數推理客戶用的是 vLLM 或 SGLang，跑的是少數幾個主流大模型，目標只有一個：每秒榨出盡可能多的 token。^{^[6]^[7]} 在這種工作流裡，CUDA 是不是唯一後端，開發者根本不關心。

這正是 CUDA 鎖定最實質的鬆動來源——不在晶片層，而在模型層：

抽象層上移——torch.compile → Triton 這條鏈，把「寫給特定硬體的 kernel」變成了編譯器的活。開發者面對的是框架，不是 CUDA。^{^[5]}
推理框架標準化——vLLM／SGLang 成了事實標準，它們把「在哪塊晶片上跑」抽象成可替換的後端。^{^[7]}
於是 chips 層的鎖定被 models 層架空——CUDA 沒有被打敗，它只是被挪到了「看不見、也不必在意」的位置。

用「五層蛋糕」的話說：CUDA 是 chips 層與 models 層之間的那道軟體黏合劑；當模型層自己長出了通用的抽象，黏合劑就不再是唯一的。

五、輝達的加固：把牆「加寬」

輝達當然清楚這一點，它的應對不是把牆修得更高，而是修得更寬——讓 CUDA 無處不在，從而把「繞過它」的成本重新抬上去。

CUDA-X 庫持續擴張，把最佳化運算元的護城河延伸到推理、資料科學、生物醫藥等更多領域；
下沉到 PC——Computex 2026 上，輝達把完整 CUDA 與 RTX 生態隨 RTX Spark 晶片搬進 Windows PC，喊出「CUDA 無處不在」，意在讓從雲端到桌面、到 Jetson 邊緣、到機器人，用的都是同一套 CUDA。

這一步的算盤是：當 CUDA 不只是「資料中心訓練的標準」，而是從雲到端到機器人的跨層標準，開發者要「繞過」它的成本就不止是換個推理後端，而是放棄一整條貫穿五層的工具鏈。護城河從「深」轉向「廣」——這與首篇裡輝達「每一層佔位、每一層收租」的邏輯，是同一套打法。

六、量級校準與反方（防一邊倒）

鑿牆是真的，但「牆要塌了」遠沒到。

CUDA 仍是預設選項。 它在 AI 開發者中約 80% 的滲透不是一年能逆轉的；ROCm 雖在 PyTorch／vLLM 上達到了生產可用，但剩餘差距集中在 TensorRT-LLM、FlashAttention 3、NVIDIA NIM 容器，以及任何帶 CUDA 專用自定義 kernel 的流水線。^{^[1]}
「能跑」不等於「好用」。 多家評測的共識是：ROCm 不會一夜補平 CUDA，趨勢雖明確，但仍是「一步接一步」。^{^[2]^[4]} CANN 的成熟度差距更大。^{^[10]}
訓練側幾乎沒動。 上述鬆動主要發生在推理；前沿模型的訓練，仍高度依賴 CUDA 的成熟工具鏈與自定義運算元。
份額預測只是預測。 有云服務商（Tensorwave）預計 AMD 2026 年可拿下 20%～25% 的份額^{^[1]}——這類數字反映的是趨勢與情緒，不等於既成事實。

所以更準確的說法是：CUDA 不會被「複製」掉，但它「唯一性」的溢價正在被抽象層稀釋——尤其在推理這一側。而唯一性，恰恰是過去支撐輝達約 75% 毛利率的軟實力之一。^{^[13]}

七、五層視角：一道「銜接層」的鬆動

從「五層蛋糕」看，CUDA 的特殊在於它不屬於某一層，而是 chips 層與 models 層之間的銜接層。這道銜接層一旦從「唯一」變成「可替換」，傳導是雙向的：

向下（chips）——硬體的差異化更難只靠「軟體不相容」來維持，AMD、華為、乃至各家自研晶片，第一次有了「軟體夠用」的底氣；
向上（models）——模型層獲得了對硬體的議價權與可移植性，“在哪塊晶片上跑”從戰略問題降級為工程選項。

很多人盯著晶片層的份額之爭，但這一代真正的勝負手，可能在那道把晶片與模型粘起來的軟體銜接層上。

八、結語

輝達最深的護城河，依然在它腳下——CUDA 不會在一兩年裡被誰掀翻。但 2026 年的轉變在於：對手們終於不再執著於“造一個更好的 CUDA”，而是合力把行業帶到“不必依賴 CUDA”的那一側。 一個被架空的標準，哪怕仍在執行，溢價也會慢慢褪色。

老黃的反制——讓 CUDA 無處不在——是在用「廣度」贖回「唯一性」。這堵牆未來是更厚還是更空，取決於推理這條主戰場上，開發者最終是繼續站在 CUDA 裡，還是站在 CUDA 之上。這，正是我們這個系列要替你長期盯住的地方。

護城河之二：CUDA 還守得住嗎？輝達最深的那堵牆，與正在鑿牆的人

一、先講清楚：CUDA 為什麼是「最深的牆」

二、結論先行

三、鑿牆的三股力量（資料模組）

AMD ROCm：從「能跑」到「敢押注」

OpenAI Triton：最危險的不是對手，是「中間層」

華為 CANN：成熟度換地緣空間

四、真正的變數：行業「還需不需要 CUDA」

五、輝達的加固：把牆「加寬」

六、量級校準與反方（防一邊倒）

七、五層視角：一道「銜接層」的鬆動

八、結語

延伸閱讀

常見問題

參考來源

一、先講清楚：CUDA 為什麼是「最深的牆」

二、結論先行

三、鑿牆的三股力量（資料模組）

AMD ROCm：從「能跑」到「敢押注」

OpenAI Triton：最危險的不是對手，是「中間層」

華為 CANN：成熟度換地緣空間

四、真正的變數：行業「還需不需要 CUDA」

五、輝達的加固：把牆「加寬」

六、量級校準與反方（防一邊倒）

七、五層視角：一道「銜接層」的鬆動

八、結語

延伸閱讀

常見問題

參考來源

同系列往期 檢視完整系列 →

相關百科

跨站相關詞條

相關每日新聞

同系列往期檢視完整系列 →