一家公司拿自家代碼庫的提交記錄告訴你「飛輪正在加速」,轉頭又請求世界,給它保留一個「踩剎車」的選項。
2026 年 6 月,Anthropic 發佈了一篇刷屏長文《When AI builds itself》(當 AI 開始造 AI,由 Marina Favaro 與聯合創始人 Jack Clark 合著)。[1][2] 文章用一組相當硬核的內部數據,把「遞歸自我改進」(Recursive Self-Improvement,RSI)這個長期停留在理論裡的詞,砸到了檯面上——核心論據是:截至 2026 年 5 月,合入 Anthropic 代碼庫的代碼裡,超過 80% 由 Claude 編寫。[1][4]
但最戲劇性的一幕是:就在鋪陳完「我們跑得有多快」之後,Anthropic 筆鋒一轉,罕見地公開呼籲——必要時,世界應當保留「減速或暫停前沿 AI 開發」的選項。[1][3]
這篇文章的「AI 安全」那一面,全網已經講得夠多了。讀馬君想做一件不一樣的事:把它放回黃仁勳的「五層蛋糕」框架裡,看它對芯片與能源這兩層意味著什麼。但開篇必須把一句話說在最前面——
本文引用的幾乎所有驚人數字,都是 Anthropic 關於「自己」的自述,未經獨立第三方審計,且來自一個有強烈融資與敘事動機的當事方。它們是有價值的信號,但需要打折看。
一、結論先行
拋開末日敘事,這篇長文裡最該被產業讀懂的,是它順手揭示的一條鐵律:
一旦「研究品味」這最後一格也被點亮,AI 進步的速度,將只由算力供給決定。[1]
把這句話放回五層蛋糕,含義很重:它等於把芯片(chips)與能源(energy)兩層的戰略地位推到了極限——當寫代碼、跑實驗、甚至判斷「下一步該怎麼走」都被自動化,算力就成了唯一的油門。這是對算力需求最猛的多頭敘事。
但同一枚硬幣的反面,也要立刻擺出來:
- 數字要打折——核心指標全部是 Anthropic 自述、未獨立審計,部分甚至是「讓 Claude 給 Claude 當裁判」打出來的;公司自己都承認其中一項(8 倍)「高估了真實生產力」。[1]
- 敘事有動機——「我們快到要喊停了」這句話本身,就是一家前沿實驗室最好的能力廣告與融資敘事。
- 最該警惕的盲點——「算力即唯一變量」的多頭故事,恰恰把 Anthropic 自己列出、卻判為「最不相信」的那個劇本忽略了:趨勢停滯,瓶頸卡在芯片、電網與供應鏈。[1] 而那,正是對算力產業最關鍵的分支。
二、Anthropic 到底自述了什麼(數據模塊)
先把文章裡的關鍵數字擺成一張表——每一項都請讀成「Anthropic 說」,而非「事實是」。
| 維度 | 自述數字 | 口徑 |
|---|---|---|
| 代碼佔比 | 合入代碼庫的代碼超 80% 由 Claude 編寫(2026-05);Claude Code 發佈(2025-02)前還是「個位數」 | Anthropic 自述 [1][4] |
| 工程產出 | 人均日合入代碼量約為 2024 年的 8 倍(公司自承代碼行數「高估了生產力」);130 名研究員內部調查(2026-03)中位數自評約 4 倍 | Anthropic 自述 [1] |
| 最開放任務成功率 | 約 26%→76%(2026-05,半年提升約 50 個百分點) | Anthropic 自述 [1] |
| 訓練代碼優化提速 | Opus 4(2025-05)約 3× → Mythos Preview(2026-04)約 52×;熟練人類研究員 4~8 小時做到約 4× | Anthropic 自述 [1] |
| 「研究判斷力」(擇優下一步) | Opus 4.5(2025-11)51% → Mythos Preview(2026-04)64% 概率給出比人類更優的下一步 | Anthropic 自述 [1] |
| 端到端開放難題 | 兩名人類研究員一週追回 23% 性能差距;Claude 智能體用約 800 累計小時、約 1.8 萬美元算力追回 97% | Anthropic 自述 [1] |
| 工程「大掃除」 | 2026-04 一次性提交 800+ 修復、把一類 API 錯誤壓低 1000×,估算人工需 4 年 | Anthropic 自述 [1] |
數字很嚇人,但讀法要冷靜:代碼行數衡量的是數量而非質量,8 倍是上限值;130 人調查裡中位數的 4 倍,是更可信、也更誠實的那個數。[1] 後面所有推論,都該建立在「4 倍量級、且未經外部復現」這個更保守的地基上。
三、這是「遞歸自我改進」嗎?——把驚悚翻譯成機制
RSI 的定義很簡單:AI 自己設計、訓練、迭代自己的繼任者,當 AI 改進 AI 的速度超過人類改進 AI 的速度,飛輪就脫離人類的手、開始自轉。
Anthropic 的論證路徑是這樣的:它已經撞上了兩堵「阿姆達爾定律」的牆——整體速度被那個沒提速的環節卡住。第一堵是代碼審查排隊(Claude 寫得太快,人審不過來);第二堵是想法與工具的產出爆炸(多到公司消化不了)。[1] 於是人類僅存的比較優勢,被收窄到一個詞:「研究品味」——判斷哪些問題值得做、哪些結果可信、哪條路是死衚衕。
而 Anthropic 對「研究品味」也不留情面:它指出 AI 的進步很少靠靈光一現(Transformer 那種範式級靈感幾年才出一次),絕大多數進步靠的是「放大→看哪裡壞了→修好→再試」——而這恰恰是 Claude 最擅長的工作流;至於「研究品味」,「可能只是又一個 AI 暫時不會、然後突然就會了的能力」。[1]
落到時間表上,聯合創始人 Jack Clark 給出過一個具體數字:2028 年底前,出現遞歸自我改進的概率為 60%。[5]
提示:「60%/2028」是 Jack Clark 的個人公開預測、屬第三方觀點,不是事實;它建立在一組能力基準的外推之上,而外推本身就可能出錯。
這一節,是全文最該打折的地方。 這些基準大多是 Anthropic 內部的任務、由 Claude 評判 Claude,對真實世界研究的泛化能力存疑;而「研究品味終將被攻克」是一個推測,不是證據。
四、放回五層蛋糕:為什麼這對「芯片 + 能源」是最猛的多頭敘事
現在回到讀馬君真正關心的問題。Anthropic 給出了三種未來,其中它押注最後兩個,而對產業衝擊最大的,是「劇本三」裡的那句話:
完全的遞歸自我改進:AI 進步的速度只取決於算力供給,人類退居驗證和監督。[1]
把這句話翻譯成產業語言:如果 RSI 成真,算力(chips 層)與電力(energy 層),就從「AI 需求的一個變量」,變成了「唯一的變量」。
這件事的分量,要對照「英偉達護城河觀察」系列裡反覆出現的那個需求側之問來讀:過去市場最擔心的,是「AI 的算力需求會不會軟下來」——定製 ASIC 圍剿、推理單價崩塌,本質都是在問「蛋糕還會不會變大」。而 RSI 敘事,是直接把需求的天花板拆了:只要還有電、還有芯片,飛輪就轉得更快、要的算力就更多,沒有自然的飽和點。 這對英偉達、對整條算力鏈,是一個「上不封頂」的多頭故事;對能源層(電網、核電 SMR、數據中心 PUE)也是同一枚硬幣的另一面——算力的盡頭是電。
但恰恰在這裡,藏著這篇文章最該被警惕的盲點。
「算力即唯一變量」的多頭敘事,和 Anthropic 自己判為「最不相信」的劇本一——趨勢停滯、瓶頸卡在芯片、電網與供應鏈[1]——其實是同一件事的兩面。當你把算力當成唯一的油門,就等於承認:油門踩到底時,先到的天花板很可能不是「超級智能」,而是「芯片不夠造、電不夠用」。 對產業而言,真正的問題因此不是「需求會不會無限」,而是「供給(先進製程產能、電力)能不能跟上,跟不上時誰卡住誰」。RSI 這套敘事,與其說是 models 層的勝利宣言,不如說是把壓力整層壓回了 chips 與 energy。
五、跑得最快的,卻喊了「暫停」——治理悖論與可信度打折
文章最反直覺的部分,是 Anthropic 一邊鋪陳加速,一邊呼籲「保留減速或暫停的選項」。它說得很清楚:這不是天真地喊「都停下」——如果只有謹慎者放慢腳步,等於把領先優勢拱手送給最不謹慎的人;真正需要的,是多國、多個前沿實驗室、在同樣條件下同時停、且彼此可驗證。[1][3]
這個主張本身值得尊重。但作為產業觀察,必須給它的可信度做幾道減法:
- 當事方自述,動機不中性。 「我們快到要喊停了」客觀上強化了 Anthropic「領先者」的人設——既是安全表態,也是最高效的能力廣告。
- 公司自己已經在打折。 8 倍高估、4 倍才是中位——一家願意自我修正的公司值得加分,但也提醒我們:這些數字的口徑,是可以被敘事需要而選擇的。
- 單一實驗室的自評,不能當產業結論。 在獨立、可復現的第三方基準跟上之前,「RSI 臨近」更應被當作一個待驗證的假設,而不是一個可以據以配置產業判斷的事實。
這不是說 Anthropic 在誇大,而是說:產業判斷不能只採信任何一家實驗室關於它自己的自述。
六、反方與不確定性
- 自述 ≠ 獨立審計。 核心指標全部來自 Anthropic 內部,部分由 Claude 評判 Claude,缺乏外部可復現驗證。[1]
- 代碼行數 ≠ 生產力。 公司自承 8 倍高估,4 倍中位更可信;生產力的真實增幅,比頭條數字保守得多。[1]
- 基準的泛化存疑。 「優化訓練代碼」「在內部任務上選下一步」是窄而明確的環節,不等於真實世界研究的全貌;「研究品味終被攻克」是推測。
- 時間表是個人預測。 「60%/2028」出自 Jack Clark 個人,[5] 而 Anthropic 自己也把「趨勢停滯」列為三劇本之一(儘管是它最不信的那個)。[1]
- 多頭敘事的反面是供給約束。 「算力上不封頂」與「芯片/電網先成為瓶頸」是同一假設的一體兩面——後者恰是對算力產業最關鍵、卻最常被忽略的分支。
七、對產業鏈意味著什麼(五層視角,非預測、不薦股)
先把話說在前面:Anthropic 是未上市公司,本文不涉及任何標的的買賣判斷;我們只把這篇自述還原成產業鏈上的因果(以下均為情景推演、非預測)。
- 兩種敘事並存——算力需求「上不封頂」(若 RSI 成真)與「可能封頂」(劇本一/供給約束/S 曲線見頂)同時擺在桌上;理性的做法是兩手都備、而非單押其一。
- 真正值得長期盯的三件事——① token 經濟與算力供給的賽跑(智能體真正放量後,單位成本與總算力誰跑贏誰,見「推理經濟學」那篇);② 能源是否成為新瓶頸(當算力的盡頭是電,energy 層的電網與電力供給會不會先於芯片卡住飛輪);③ 獨立第三方基準能否驗證這些自述——在它跟上之前,一切 RSI 時間表都只是假設。
結語
一家公司拿著自家代碼庫的提交記錄告訴你「飛輪在加速」,又請求世界保留「踩剎車」的選項。無論你信幾分,對讀懂老黃的讀者,真正的信號其實只有一句:
當「汗水」被自動化、研究只剩「品味」這一格,算力就成了唯一的油門——而油門踩到底時,先撞上的天花板,可能不是超級智能,而是電不夠用、芯片不夠造。
這把球,最終又踢回了「五層蛋糕」最底下的兩層。而那兩層守不守得住,才是這場加速裡,最該被長期盯住的變量。
延伸閱讀
- 需求側之問(同一枚硬幣的另一面):護城河在漏水?老黃的 GPU 帝國,正被一群「自己造芯片」的客戶包圍。
- 算力的盡頭是賬本:一個 token 幾分錢——AI 推理的「token 工廠」經濟學。
- 全景起點:Computex 2026 總綱:黃仁勳把 AI『五層蛋糕』摞齊了。
- 相關百科:Anthropic · 推理模型 · 五層蛋糕。