這些驚人數字可信嗎?

文章反覆提示這些數字都是 Anthropic 關於『自己』的自述、未經獨立第三方審計,且來自有強烈融資與敘事動機的當事方,部分甚至是『讓 Claude 給 Claude 當裁判』打出的;公司自己都承認工程產出『8 倍』高估了真實生產力,130 人調查裡中位數自評約 4 倍才是更可信的數。

什麼是『遞迴自我改進』(RSI)?

RSI 指 AI 自己設計、訓練、迭代自己的繼任者;當 AI 改進 AI 的速度超過人類改進 AI 的速度,飛輪就脫離人類的手、開始自轉。聯合創始人 Jack Clark 給出的個人預測是 2028 年底前出現 RSI 的機率為 60%,文章明示這屬第三方觀點、不是事實。

這份報告為什麼對『晶片 + 能源』是最猛的多頭敘事?

文章揭示的鐵律是:一旦『研究品味』這最後一格被點亮,AI 進步的速度將只由算力供給決定,等於把需求的天花板拆了——只要還有電、還有晶片,飛輪就轉得更快、要的算力就更多,對晶片鏈與能源層是『上不封頂』的多頭故事。

這套多頭敘事最該警惕的盲點是什麼?

當算力被當成唯一的油門,就等於承認油門踩到底時先到的天花板很可能不是『超級智慧』,而是『晶片不夠造、電不夠用』;這恰是 Anthropic 自己列出卻判為『最不相信』的劇本一——趨勢停滯、瓶頸卡在晶片、電網與供應鏈。

Anthropic 自曝「AI 開始自己造自己」，卻又呼籲踩剎車——拋開末日敘事，它改寫的是『算力』這本賬 · 深度報道

Q: Anthropic 的《When AI builds itself》說了什麼?

這篇 2026 年 6 月的長文用一組內部資料把『遞迴自我改進』砸到檯面上,核心論據是截至 2026 年 5 月合入 Anthropic 程式碼庫的程式碼裡超過 80% 由 Claude 編寫;但鋪陳完加速後,它罕見地公開呼籲世界應保留『減速或暫停前沿 AI 開發』的選項。

一家公司拿自家程式碼庫的提交記錄告訴你「飛輪正在加速」，轉頭又請求世界，給它保留一個「踩剎車」的選項。

2026 年 6 月，Anthropic 釋出了一篇刷屏長文《When AI builds itself》（當 AI 開始造 AI，由 Marina Favaro 與聯合創始人 Jack Clark 合著）。^{^[1]^[2]} 文章用一組相當硬核的內部資料，把「遞迴自我改進」（Recursive Self-Improvement，RSI）這個長期停留在理論裡的詞，砸到了檯面上——核心論據是：截至 2026 年 5 月，合入 Anthropic 程式碼庫的程式碼裡，超過 80% 由 Claude 編寫。^{^[1]^[4]}

但最戲劇性的一幕是：就在鋪陳完「我們跑得有多快」之後，Anthropic 筆鋒一轉，罕見地公開呼籲——必要時，世界應當保留「減速或暫停前沿 AI 開發」的選項。^{^[1]^[3]}

這篇文章的「AI 安全」那一面，全網已經講得夠多了。這件事真正的分量，在它對晶片與能源的牽動。但開篇必須把一句話說在最前面——

下文引用的幾乎所有驚人數字，都是 Anthropic 關於「自己」的自述，未經獨立第三方審計，且來自一個有強烈融資與敘事動機的當事方。它們是有價值的訊號，但需要打折看。

一、結論先行

拋開末日敘事，這篇長文裡最該被產業讀懂的，是它順手揭示的一條鐵律：

一旦「研究品味」這最後一格也被點亮，AI 進步的速度，將只由算力供給決定。^{^[1]}

把這句話放回五層蛋糕，含義很重：它等於把晶片（chips）與能源（energy）兩層的戰略地位推到了極限——當寫程式碼、跑實驗、甚至判斷「下一步該怎麼走」都被自動化，算力就成了唯一的油門。這是對算力需求最猛的多頭敘事。

但同一枚硬幣的反面，也要立刻擺出來：

數字要打折——核心指標全部是 Anthropic 自述、未獨立審計，部分甚至是「讓 Claude 給 Claude 當裁判」打出來的；公司自己都承認其中一項（8 倍）「高估了真實生產力」。^{^[1]}
敘事有動機——「我們快到要喊停了」這句話本身，就是一家前沿實驗室最好的能力廣告與融資敘事。
最該警惕的盲點——「算力即唯一變數」的多頭故事，恰恰把 Anthropic 自己列出、卻判為「最不相信」的那個劇本忽略了：趨勢停滯，瓶頸卡在晶片、電網與供應鏈。^{^[1]} 而那，正是對算力產業最關鍵的分支。

二、Anthropic 到底自述了什麼（資料模組）

先把文章裡的關鍵數字擺成一張表——每一項都請讀成「Anthropic 說」，而非「事實是」。

維度	自述數字	口徑
程式碼佔比	合入程式碼庫的程式碼超 80% 由 Claude 編寫（2026-05）；Claude Code 釋出（2025-02）前還是「個位數」	Anthropic 自述 ^{^[1]^[4]}
工程產出	人均日合入程式碼量約為 2024 年的 8 倍（公司自承程式碼行數「高估了生產力」）；130 名研究員內部調查（2026-03）中位數自評約 4 倍	Anthropic 自述 ^{^[1]}
最開放任務成功率	約 26%→76%（2026-05，半年提升約 50 個百分點）	Anthropic 自述 ^{^[1]}
訓練程式碼最佳化提速	Opus 4（2025-05）約 3× → Mythos Preview（2026-04）約 52×；熟練人類研究員 4～8 小時做到約 4×	Anthropic 自述 ^{^[1]}
「研究判斷力」（擇優下一步）	Opus 4.5（2025-11）51% → Mythos Preview（2026-04）64% 機率給出比人類更優的下一步	Anthropic 自述 ^{^[1]}
端到端開放難題	兩名人類研究員一週追回 23% 效能差距；Claude 智慧體用約 800 累計小時、約 1.8 萬美元算力追回 97%	Anthropic 自述 ^{^[1]}
工程「大掃除」	2026-04 一次性提交 800+ 修復、把一類 API 錯誤壓低 1000×，估算人工需 4 年	Anthropic 自述 ^{^[1]}

數字很嚇人，但讀法要冷靜：程式碼行數衡量的是數量而非質量，8 倍是上限值；130 人調查裡中位數的 4 倍，是更可信、也更誠實的那個數。^{^[1]} 後面所有推論，都該建立在「4 倍量級、且未經外部復現」這個更保守的地基上。

三、這是「遞迴自我改進」嗎？——把驚悚翻譯成機制

RSI 的定義很簡單：AI 自己設計、訓練、迭代自己的繼任者，當 AI 改進 AI 的速度超過人類改進 AI 的速度，飛輪就脫離人類的手、開始自轉。

Anthropic 的論證路徑是這樣的：它已經撞上了兩堵「阿姆達爾定律」的牆——整體速度被那個沒提速的環節卡住。第一堵是程式碼審查排隊（Claude 寫得太快，人審不過來）；第二堵是想法與工具的產出爆炸（多到公司消化不了）。^{^[1]} 於是人類僅存的比較優勢，被收窄到一個詞：「研究品味」——判斷哪些問題值得做、哪些結果可信、哪條路是死衚衕。

而 Anthropic 對「研究品味」也不留情面：它指出 AI 的進步很少靠靈光一現（Transformer 那種範式級靈感幾年才出一次），絕大多數進步靠的是「放大→看哪裡壞了→修好→再試」——而這恰恰是 Claude 最擅長的工作流；至於「研究品味」，「可能只是又一個 AI 暫時不會、然後突然就會了的能力」。^{^[1]}

落到時間表上，聯合創始人 Jack Clark 給出過一個具體數字：2028 年底前，出現遞迴自我改進的機率為 60%。^{^[5]}

提示：「60%／2028」是 Jack Clark 的個人公開預測、屬第三方觀點，不是事實；它建立在一組能力基準的外推之上，而外推本身就可能出錯。

這一節，是全文最該打折的地方。 這些基準大多是 Anthropic 內部的任務、由 Claude 評判 Claude，對真實世界研究的泛化能力存疑；而「研究品味終將被攻克」是一個推測，不是證據。

四、放回五層蛋糕：為什麼這對「晶片 + 能源」是最猛的多頭敘事

真正的問題在這裡。Anthropic 給出了三種未來，其中它押注最後兩個，而對產業衝擊最大的，是「劇本三」裡的那句話：

完全的遞迴自我改進：AI 進步的速度只取決於算力供給，人類退居驗證和監督。^{^[1]}

把這句話翻譯成產業語言：如果 RSI 成真，算力（chips 層）與電力（energy 層），就從「AI 需求的一個變數」，變成了「唯一的變數」。

這件事的分量，要對照「輝達護城河觀察」系列裡反覆出現的那個需求側之問來讀：過去市場最擔心的，是「AI 的算力需求會不會軟下來」——定製 ASIC 圍剿、推理單價崩塌，本質都是在問「蛋糕還會不會變大」。而 RSI 敘事，是直接把需求的天花板拆了：只要還有電、還有晶片，飛輪就轉得更快、要的算力就更多，沒有自然的飽和點。 這對輝達、對整條算力鏈，是一個「上不封頂」的多頭故事；對能源層（電網、核電 SMR、資料中心 PUE）也是同一枚硬幣的另一面——算力的盡頭是電。

但恰恰在這裡，藏著這篇文章最該被警惕的盲點。

「算力即唯一變數」的多頭敘事，和 Anthropic 自己判為「最不相信」的劇本一——趨勢停滯、瓶頸卡在晶片、電網與供應鏈^{^[1]}——其實是同一件事的兩面。當你把算力當成唯一的油門，就等於承認：油門踩到底時，先到的天花板很可能不是「超級智慧」，而是「晶片不夠造、電不夠用」。 對產業而言，真正的問題因此不是「需求會不會無限」，而是「供給（先進製程產能、電力）能不能跟上，跟不上時誰卡住誰」。RSI 這套敘事，與其說是 models 層的勝利宣言，不如說是把壓力整層壓回了 chips 與 energy。

五、跑得最快的，卻喊了「暫停」——治理悖論與可信度打折

文章最反直覺的部分，是 Anthropic 一邊鋪陳加速，一邊呼籲「保留減速或暫停的選項」。它說得很清楚：這不是天真地喊「都停下」——如果只有謹慎者放慢腳步，等於把領先優勢拱手送給最不謹慎的人；真正需要的，是多國、多個前沿實驗室、在同樣條件下同時停、且彼此可驗證。^{^[1]^[3]}

這個主張本身值得尊重。但作為產業觀察，必須給它的可信度做幾道減法：

當事方自述，動機不中性。 「我們快到要喊停了」客觀上強化了 Anthropic「領先者」的人設——既是安全表態，也是最高效的能力廣告。
公司自己已經在打折。 8 倍高估、4 倍才是中位——一家願意自我修正的公司值得加分，但也提醒我們：這些數字的口徑，是可以被敘事需要而選擇的。
單一實驗室的自評，不能當產業結論。 在獨立、可復現的第三方基準跟上之前，「RSI 臨近」更應被當作一個待驗證的假設，而不是一個可以據以配置產業判斷的事實。

這不是說 Anthropic 在誇大，而是說：產業判斷不能只採信任何一家實驗室關於它自己的自述。

六、反方與不確定性

自述 ≠ 獨立審計。 核心指標全部來自 Anthropic 內部，部分由 Claude 評判 Claude，缺乏外部可復現驗證。^{^[1]}
程式碼行數 ≠ 生產力。 公司自承 8 倍高估，4 倍中位更可信；生產力的真實增幅，比頭條數字保守得多。^{^[1]}
基準的泛化存疑。 「最佳化訓練程式碼」「在內部任務上選下一步」是窄而明確的環節，不等於真實世界研究的全貌；「研究品味終被攻克」是推測。
時間表是個人預測。 「60%／2028」出自 Jack Clark 個人，^{^[5]} 而 Anthropic 自己也把「趨勢停滯」列為三劇本之一（儘管是它最不信的那個）。^{^[1]}
多頭敘事的反面是供給約束。 「算力上不封頂」與「晶片/電網先成為瓶頸」是同一假設的一體兩面——後者恰是對算力產業最關鍵、卻最常被忽略的分支。

七、對產業鏈意味著什麼（五層視角）

Anthropic 是未上市公司，下面只把這篇自述還原成產業鏈上的因果，均為情景推演。

兩種敘事並存——算力需求「上不封頂」（若 RSI 成真）與「可能封頂」（劇本一／供給約束／S 曲線見頂）同時擺在桌上；理性的做法是兩手都備、而非單押其一。
真正值得長期盯的三件事——① token 經濟與算力供給的賽跑（智慧體真正放量後，單位成本與總算力誰跑贏誰，見「推理經濟學」那篇）；② 能源是否成為新瓶頸（當算力的盡頭是電，energy 層的電網與電力供給會不會先於晶片卡住飛輪）；③ 獨立第三方基準能否驗證這些自述——在它跟上之前，一切 RSI 時間表都只是假設。

結語

一家公司拿著自家程式碼庫的提交記錄告訴你「飛輪在加速」，又請求世界保留「踩剎車」的選項。無論你信幾分，對讀懂AI時代的讀者，真正的訊號其實只有一句：

當「汗水」被自動化、研究只剩「品味」這一格，算力就成了唯一的油門——而油門踩到底時，先撞上的天花板，可能不是超級智慧，而是電不夠用、晶片不夠造。

這把球，最終又踢回了「五層蛋糕」最底下的兩層。而那兩層守不守得住，才是這場加速裡，最該被長期盯住的變數。

Anthropic 自曝「AI 開始自己造自己」，卻又呼籲踩剎車——拋開末日敘事，它改寫的是『算力』這本賬

一、結論先行

二、Anthropic 到底自述了什麼（資料模組）

三、這是「遞迴自我改進」嗎？——把驚悚翻譯成機制

四、放回五層蛋糕：為什麼這對「晶片 + 能源」是最猛的多頭敘事

五、跑得最快的，卻喊了「暫停」——治理悖論與可信度打折

六、反方與不確定性

七、對產業鏈意味著什麼（五層視角）

結語

延伸閱讀

常見問題

參考來源

一、結論先行

二、Anthropic 到底自述了什麼（資料模組）

三、這是「遞迴自我改進」嗎？——把驚悚翻譯成機制

四、放回五層蛋糕：為什麼這對「晶片 + 能源」是最猛的多頭敘事

五、跑得最快的，卻喊了「暫停」——治理悖論與可信度打折

六、反方與不確定性

七、對產業鏈意味著什麼（五層視角）

結語

延伸閱讀

常見問題

參考來源

相關百科

跨站相關詞條

相關每日新聞