6 月 2 日,OpenAI 的「Intelligence at Work」直播沒有端出新的旗艦大模型,卻幹了一件更具象的事:把一個原本只屬於程序員的工具——Codex,改造成銷售、數據分析師、產品設計師、甚至投行家都能差遣的「數字員工」,並宣佈它會在「未來幾周」住進每一個人的 ChatGPT。[1]
這條新聞被中文媒體讀成「ChatGPT 大變身」「終結純聊天對話時代」。措辭誇張,但方向沒說錯:過去 18 個月,整個行業賣的是「會聊天的機器人」;從這一天起,敘事的重心明確轉向「會幹活的代理(agent)」。
這一篇,我們不復述發佈會的興奮。讀馬君更關心的是站在「五層蛋糕」最上層(應用)往下看的那個問題:當 AI 從「回答」變成「執行」,這股力量順著五層往下傳,最後會壓在哪裡、誰來買單——以及,它到底是真需求,還是又一輪「demo 驚豔、上線翻車」。
一、發生了什麼:Codex 從「寫代碼」變成「幹活」
先把可核實的事實釘死。
6 月 2 日的直播上,OpenAI 推出「Codex for every role」——六個面向具體崗位的插件,分別覆蓋數據分析、創意製作、銷售、產品設計、公開股票投資(public equity investing)、投資銀行(investment banking)。[1]注意後兩個:它們不再是給開發者的,而是直接瞄準金融業薪資最高的那批知識工作。
值得多看一眼的,是 OpenAI 挑崗位的邏輯。它沒去碰最難自動化的體力或強監管領域,而是精準選了六個「產出即數字文件、流程可拆解、單位時薪又高」的白領工種——代碼、數據、設計、銷售物料、投研、投行建模。這是一套商業化算盤:哪裡的人力最貴、又最容易被軟件復刻,代理就先去哪裡變現。把投行與公開市場投研擺上檯面,等於直接朝一個萬億級的專業服務市場喊話。
同場還放出兩個能力:Codex Sites,能直接生成可託管、可分享的交互式網站與應用,先向企業與 Business 客戶鋪開;以及 Annotations,讓用戶圈出成品裡要改的那一處、直接告訴 Codex 怎麼調。[1]OpenAI 同時宣佈,會在「未來幾周」把 Codex 裝進 ChatGPT app——兩者暫時仍各自獨立、再做深度整合,而非合併。[1]
模型層也換了引擎。驅動這套能力的新模型叫 GPT-5.3-Codex,OpenAI 官方的說法是:它讓 Codex 從「能寫、能審代碼的 agent」邁向「幾乎能做開發者與專業人士在電腦上能做的任何事」。[2][3]一句話——產品的賣點,從「答得好」變成了「做得成」。
放進時間線看更清楚:2023 年是「會聊天」的 GPT-4,2024 年是「打輔助」的各類 Copilot,到 2026 年這一步,賣的是「能獨立交活」的 agent。每一步都把人往環節外挪一格——這一次,挪到了「驗收者」的位置。也正因如此,它對算力、對崗位、對軟件商業模式的衝擊,都比前兩步更猛。
二、為什麼叫「代理元年」:聊天與代理,是兩種東西
「聊天」和「代理」的差別,不是程度,是種類。
聊天是一問一答:你給一段話,模型還你一段話,幹活的還是人。代理是另一回事——它自己把任務拆成步驟、自己調用工具(瀏覽器、代碼、表格、外部 API)、讀寫文件、多輪試錯、自我檢查,最後交付一件成品:一個網站、一份建模、一套對賬表。人從「敲指令的人」退到「驗收的人」。
把這層窗戶紙捅破,你就明白為什麼這是一道分水嶺。OpenAI 這次挑的六個崗位,全是「中間產物高度數字化、流程可拆解」的白領工種;而把投行與公開市場投研單列出來,等於宣告代理要去啃的,不是客服和文案,而是按小時計費動輒數百美元的專業服務。這是應用層這塊蛋糕裡最肥的一角,也是這場敘事最有想象力、同時最具爭議的地方。
三、算力賬:代理比聊天,燒的是另一個量級
這才是讀馬君真正想算的一筆賬,也是「五層蛋糕」框架的用處所在——別隻盯著應用層的熱鬧,要看它往下壓在誰身上。
一次普通聊天,觸發的是一次模型推理調用。而一個代理任務,是一整條流水線。據行業測算,一次用戶請求交給代理,往往要觸發 8~15 次內部的模型調用:一次任務規劃、三到五次工具調用、幾次後續推理、一次自我反思、一次結果綜合,再加上若干次向量庫檢索。[6]Gartner 今年 3 月的分析把這個差距量化得更直接:代理類應用每完成一個任務,消耗的 token 是標準聊天機器人的 5~30 倍;單個任務的算力成本,落在約 0.27~5.12 美元之間。[5][6]
放到規模上,差距更誇張。同樣服務一批用戶,一套代理部署燒掉的 token,可以比一個簡單聊天機器人高出整整一個數量級。[5][7]這已經體現在賬單上:2026 年,重度使用 Claude Code 這類代理式編程工具的團隊,被曝出每名工程師每月 500~2000 美元的模型開銷。[5]換句話說,代理不是把聊天做得更好,而是把單位時間的算力胃口整體抬高了一兩檔。
這筆賬有個弔詭之處:燒得多,未必賺得多。同樣一筆算力預算,代理模式下能服務的用戶數要除以一個不小的倍數;而代理產品的定價能不能追上這倍增的成本,目前還是問號。這條暗線,我們留到後面算英偉達那筆賬時再攤開。
高盛一份報告的判斷與此同向:AI 智能體會隨著使用量激增而提振科技板塊的現金流。[8]讀馬君把它翻譯成產業語言——代理把 AI 從「偶爾問一句」的間歇負載,變成「持續替你幹活」的常駐負載,用量是結構性上臺階,而非線性增長。
順著五層往下捋這條傳導鏈就很清楚:
- 應用層(apps):代理產品起量,單個請求背後是 8~15 次調用;
- 模型層(models):每次調用都是一次推理請求,密度陡增;
- 基礎設施層(infra):AI 工廠被推向更高負載,推理徹底取代訓練成為主產線;
- 芯片層(chips):最終落在推理 GPU、HBM 與互聯的需求上。
這正是黃仁勳這兩年把口號改成「每個 token 的成本(cost per token)才是唯一重要的指標」的需求側背景。[9]代理元年若兌現,它是蛋糕最上層最性感的應用;但它吃掉的算力,會一路往下傳,最後變成英偉達推理產線上的訂單。應用層的故事,本質是芯片層的需求。
四、卡位戰:三家在搶同一塊地
代理不是 OpenAI 一家的敘事,這是一場三國殺。
谷歌在 2026 年的 Cloud Next 大會上,把 Vertex AI 整體升級為「Gemini 企業級代理平臺」,集成 200 多個模型(連競爭對手 Anthropic 的 Claude 都納進來),並推 A2A(agent 間通信)協議與 Workspace Studio,擺明了用全棧雲能力對抗 OpenAI 和 Anthropic。[10]
Anthropic 則走另一條路。它靠 Claude Code 這款編程代理在企業側一路領跑,又把 Claude Computer Use(計算機操作)做成研究預覽——讓模型能看屏幕、點按鈕、開應用、填表格,獨立完成多步工作流,把 Claude 從「會聊天的 AI」變成「自主的數字工人」。[11]而微軟則把代理能力往 Office 365 與 GitHub 裡嵌、靠渠道優勢卡位;它和谷歌正各自用龐大的雲業務與資產負債表,全力殺進這塊戰場。[4]
三家路線不完全一樣:OpenAI 走「讓通用代理住進 ChatGPT、順手做成崗位插件」的消費—企業兩頭通吃;谷歌走「把代理做成企業雲平臺的一部分」;Anthropic 更像「把代理能力做成給別人搭產品的地基」。但底座只有一個——算力。本站新聞區這幾天反覆出現的一條線索是:連 SpaceX 都在向谷歌、Anthropic 出租算力,幾家 AI 公司則在四處鎖定數據中心與電力。代理軍備競賽的上半場拼模型與產品,下半場拼的是誰能用更低的每 token 成本把代理持續跑起來——這又把球踢回了基礎設施與芯片層。
五、誰賺到錢:價值捕獲的三方之爭
代理元年若兌現,錢會落到誰口袋裡?目前是三方在搶,遠未定論:
- 模型商(OpenAI、谷歌、Anthropic):靠訂閱與按量調用收錢,離用戶最近、品牌最響;但彼此卷價格、卷能力,誰也沒拿到定價權。
- 應用與 SaaS 廠商:代理既可能替代一部分現成軟件,也可能反過來被它們嵌入增強——這塊是價值捕獲之爭最激烈的地帶,傳統軟件的「按席位收費」模式正被「按完成任務收費」衝擊。
- 賣鏟子的英偉達:無論上面三方誰勝出,代理跑起來都要燒推理算力,它在底層相對旱澇從容。
硬幣的另一面,是「誰被替代」。代理動搖的,可能是軟件業沿用多年的計價邏輯——SaaS 按「席位」收費,一個人頭一份訂閱;而代理按「完成的任務」幹活,一個代理可能頂幾個席位,也可能去做過去根本沒人做的活。越是流程標準、人力密集的品類(客服、初級數據分析、基礎設計、外包編程),越可能被代理從「增強」一路推到「替代」。
而它們讓出的那部分人力預算,會不會轉頭變成模型調用的算力預算?這恰恰是代理敘事裡對英偉達最有利的一條暗線——它把「省下的人力成本」翻譯成「新增的 token 消耗」,又是一筆順著五層往下走的賬。
讀馬君的判斷是:在格局未明的早期,最確定的受益位置,往往不是最熱鬧的應用層,而是底層。但「最確定」不等於「沒有變數」——而最大的那個變數,藏在下一節。
六、潑盆冷水:代理「看著行,用起來崩」
把賬算到這裡,必須停下來潑一盆冷水。因為代理元年最大的風險,不是不夠性感,而是兌現不了。
來自生產一線的數據並不好看。一項對 847 個企業代理部署的分析顯示,76% 在上線頭 90 天內出過嚴重故障。[12]另一份覆蓋 2527 名高管的調查更直接:74% 的企業,已經在生產環境裡回滾或關停過至少一個代理。[13]
崩在哪?業內歸納出幾個結構性原因。[14]其一是demo 與生產的鴻溝:演示永遠用乾淨的輸入、配合的用戶、設定好的場景,而真實世界的輸入從不乾淨。其二,也是最致命的——複合失敗:代理是多步流水線,每一步的錯誤會沿鏈條累積。即便單步可靠性高達 85%,一個 10 步的工作流端到端成功率也只剩約 20%;而企業最想自動化的,恰恰是那些長鏈條、高價值的任務。長鏈條任務和短問答本就是兩類東西,前者的容錯空間小得多,偏偏又是最值錢、最被寄予厚望的那批——業內甚至已經開始整理「年度代理翻車清單」,專門覆盤那些在生產裡把事情辦砸的知名案例。其三是集成牆:約 62% 的失敗卡在認證與對接上,每接一個工具都要定製一個連接器。更廣的圖景也不樂觀——一項面向企業的調查發現,近八成公司在落地 AI 時撞上各種障礙,儘管投入並不小。代理不是不能用,而是「從 demo 到生產」這最後一公里,遠比發佈會上看到的難走得多。Gartner 因此預警,超過 40% 的代理類 AI 項目,可能在 2027 年前被取消。[14][15]
這盆冷水,對「五層蛋糕」的算力賬有直接含義:如果代理大面積回滾、採用被推遲,那麼前面算的「token 需求結構性上臺階」就要打折扣。 利好底層的邏輯沒錯,但兌現的時間表和斜率,取決於代理能不能真正在生產裡跑穩。這是觀點與數據的並陳,不是定論——但它是任何把代理當成英偉達需求新引擎的樂觀敘事,都繞不過去的一道坎。
七、對英偉達與五層的含義:一個帶「如果」的需求側
把多空兩邊收攏,落到本站最關心的產業含義上,讀馬君用條件式說清楚,不下買賣結論:
如果代理在生產端的可靠性問題被逐步解決(業內已觀察到,配齊自動化評測體系的代理,回滾率能從 47% 降到 9%),那麼代理就是推理負載的一臺新引擎——它把每個用戶請求放大成 8~15 次調用,需求順五層往下傳,最終結結實實落在英偉達的推理產線、HBM 與互聯上。[14]
但如果可靠性遲遲過不了關、企業持續回滾,那麼這股需求的兌現就會被推後、被打折;與此同時,每任務 0.27~5.12 美元的算力成本,還要回答一個更尖銳的問題——代理跑一次的定價,能不能覆蓋它燒掉的 token?
把數字擺出來體感更強:一個代理任務的算力成本是 0.27~5.12 美元,而許多面向個人與中小企業的代理訂閱,月費不過二三十美元。只要用戶每天多跑幾個複雜任務,單個用戶就可能從「賺錢」滑向「賠錢」——這也解釋了頭部模型商為何一邊猛推代理、一邊死守閉源旗艦模型的高毛利:它們比誰都清楚,代理這本算力賬,眼下多半還是虧的。本站「英偉達護城河觀察」系列在《推理經濟學》一篇裡已拆過:推理單價在崩塌、AI 賬單卻在膨脹,「越用越虧」的陰影同樣籠罩著代理。[9]
換句話說,代理元年對英偉達,是一張幾乎確定方向、但不確定斜率的需求訂單。方向利好底層,斜率取決於應用層能不能把代理跑穩、跑到盈利。
八、接下來 30 / 60 / 90 天,盯這幾件事
留幾個可驗證的觀察點,替代空泛的結論:
- rollout 兌現度:Codex 進 ChatGPT 的「未來幾周」是否按期、採用率如何,是敘事落不落地的第一塊試金石;
- 金融兩類插件的真實邊界:公開股票投資與投行插件在合規、可靠性上到底能走多遠,決定代理啃「高薪白領工種」是真突破還是 demo;
- 可靠性曲線:企業代理的回滾率、生產故障率是否隨評測體系普及而下降——這是「需求斜率」最硬的先行指標;
- 算力信號:代理起量是否傳導為頭部模型商推理賬單的抬升、以及英偉達推理芯片需求側的口風變化——這是五層傳導是否成立的硬證據;
- 對位動作:谷歌 Gemini、Anthropic Claude 的代理產品如何接招,誰先把「每 token 成本」壓到能盈利的位置。
代理元年是不是真的來了,三個月後這幾個指標會比任何發佈會都誠實。我們繼續盯著,順著五層往下看。