OpenAI 的 Codex 這次變成了什麼?

6 月 2 日 OpenAI 把原本只屬於程式設計師的 Codex 改造成銷售、資料分析、產品設計乃至投行家都能差遣的『數字員工』,並宣佈『未來幾周』把它裝進每一個人的 ChatGPT。驅動它的新模型是 GPT-5.3-Codex,產品賣點從『答得好』轉向『做得成』。

『聊天』和『代理』到底有什麼區別?

聊天是一問一答,你給一段話、模型還你一段話,幹活的還是人;代理則自己把任務拆成步驟、呼叫工具、讀寫檔案、多輪試錯並自我檢查,最後交付一件成品。人從『敲指令的人』退到『驗收的人』,這是種類而非程度的差別。

為什麼說代理比聊天燒的算力是另一個量級?

據行業測算,一次使用者請求交給代理往往要觸發 8～15 次內部模型呼叫;Gartner 今年 3 月的分析量化為『代理每完成一個任務消耗的 token 是標準聊天機器人的 5～30 倍』,單任務算力成本約 0.27～5.12 美元。

企業用 AI 代理的真實效果如何?

來自生產一線的資料並不好看:一項對 847 個企業代理部署的分析顯示 76% 在上線頭 90 天內出過嚴重故障;另一份覆蓋 2527 名高管的調查顯示 74% 的企業已在生產環境回滾或關停過至少一個代理。Gartner 因此預警超過 40% 的代理類 AI 專案可能在 2027 年前被取消。

代理元年對輝達意味著什麼?

文章判斷這是一張幾乎確定方向、但不確定斜率的需求訂單:代理把每個請求放大成 8～15 次呼叫,需求順五層往下傳,最終落在輝達的推理產線、HBM 與互聯上;但如果可靠性過不了關、企業持續回滾,這股需求的兌現就會被推後、被打折。

AI 代理元年：OpenAI 把 Codex 塞進 ChatGPT，應用層的卡位戰開打 · 深度報道

6 月 2 日，OpenAI 的「Intelligence at Work」直播沒有端出新的旗艦大模型，卻幹了一件更具象的事：把一個原本只屬於程式設計師的工具——Codex，改造成銷售、資料分析師、產品設計師、甚至投行家都能差遣的「數字員工」，並宣佈它會在「未來幾周」住進每一個人的 ChatGPT。^{^[1]}

這條新聞被中文媒體讀成「ChatGPT 大變身」「終結純聊天對話時代」。措辭誇張，但方向沒說錯：過去 18 個月，整個行業賣的是「會聊天的機器人」；從這一天起，敘事的重心明確轉向「會幹活的代理（agent）」。

這一篇不復述釋出會的興奮，更值得關心的是站在應用這一頭往下看的那個問題：當 AI 從「回答」變成「執行」，這股力量順著產業鏈往下傳，最後會壓在哪裡、誰來買單——以及，它到底是真需求，還是又一輪「demo 驚豔、上線翻車」。

一、發生了什麼：Codex 從「寫程式碼」變成「幹活」

先把可核實的事實釘死。

6 月 2 日的直播上，OpenAI 推出「Codex for every role」——六個面向具體崗位的外掛，分別覆蓋資料分析、創意製作、銷售、產品設計、公開股票投資（public equity investing）、投資銀行（investment banking）。^{^[1]}注意後兩個：它們不再是給開發者的，而是直接瞄準金融業薪資最高的那批知識工作。

值得多看一眼的，是 OpenAI 挑崗位的邏輯。它沒去碰最難自動化的體力或強監管領域，而是精準選了六個「產出即數字檔案、流程可拆解、單位時薪又高」的白領工種——程式碼、資料、設計、銷售物料、投研、投行建模。這是一套商業化算盤：哪裡的人力最貴、又最容易被軟體復刻，代理就先去哪裡變現。把投行與公開市場投研擺上檯面，等於直接朝一個萬億級的專業服務市場喊話。

同場還放出兩個能力：Codex Sites，能直接生成可託管、可分享的互動式網站與應用，先向企業與 Business 客戶鋪開；以及 Annotations，讓使用者圈出成品裡要改的那一處、直接告訴 Codex 怎麼調。^{^[1]}OpenAI 同時宣佈，會在「未來幾周」把 Codex 裝進 ChatGPT app——兩者暫時仍各自獨立、再做深度整合，而非合併。^{^[1]}

模型層也換了引擎。驅動這套能力的新模型叫 GPT-5.3-Codex，OpenAI 官方的說法是：它讓 Codex 從「能寫、能審程式碼的 agent」邁向「幾乎能做開發者與專業人士在電腦上能做的任何事」。^{^[2]^[3]}一句話——產品的賣點，從「答得好」變成了「做得成」。

放進時間線看更清楚：2023 年是「會聊天」的 GPT-4，2024 年是「打輔助」的各類 Copilot，到 2026 年這一步，賣的是「能獨立交活」的 agent。每一步都把人往環節外挪一格——這一次，挪到了「驗收者」的位置。也正因如此，它對算力、對崗位、對軟體商業模式的衝擊，都比前兩步更猛。

二、為什麼叫「代理元年」：聊天與代理，是兩種東西

「聊天」和「代理」的差別，不是程度，是種類。

聊天是一問一答：你給一段話，模型還你一段話，幹活的還是人。代理是另一回事——它自己把任務拆成步驟、自己呼叫工具（瀏覽器、程式碼、表格、外部 API）、讀寫檔案、多輪試錯、自我檢查，最後交付一件成品：一個網站、一份建模、一套對賬表。人從「敲指令的人」退到「驗收的人」。

把這層窗戶紙捅破，你就明白為什麼這是一道分水嶺。OpenAI 這次挑的六個崗位，全是「中間產物高度數字化、流程可拆解」的白領工種；而把投行與公開市場投研單列出來，等於宣告代理要去啃的，不是客服和文案，而是按小時計費動輒數百美元的專業服務。這是應用層這塊蛋糕裡最肥的一角，也是這場敘事最有想象力、同時最具爭議的地方。

三、算力賬：代理比聊天，燒的是另一個量級

這才是真正要算的一筆賬——別隻盯著應用層的熱鬧，要看它往下壓在誰身上。

一次普通聊天，觸發的是一次模型推理呼叫。而一個代理任務，是一整條流水線。據行業測算，一次使用者請求交給代理，往往要觸發 8～15 次內部的模型呼叫：一次任務規劃、三到五次工具呼叫、幾次後續推理、一次自我反思、一次結果綜合，再加上若干次向量庫檢索。^{^[6]}Gartner 今年 3 月的分析把這個差距量化得更直接：代理類應用每完成一個任務，消耗的 token 是標準聊天機器人的 5～30 倍；單個任務的算力成本，落在約 0.27～5.12 美元之間。^{^[5]^[6]}

放到規模上，差距更誇張。同樣服務一批使用者，一套代理部署燒掉的 token，可以比一個簡單聊天機器人高出整整一個數量級。^{^[5]^[7]}這已經體現在賬單上：2026 年，重度使用 Claude Code 這類代理式程式設計工具的團隊，被曝出每名工程師每月 500～2000 美元的模型開銷。^{^[5]}代理不是把聊天做得更好，而是把單位時間的算力胃口整體抬高了一兩檔。

這筆賬有個弔詭之處：燒得多，未必賺得多。同樣一筆算力預算，代理模式下能服務的使用者數要除以一個不小的倍數；而代理產品的定價能不能追上這倍增的成本，目前還是問號。這條暗線，留到後面算輝達那筆賬時再攤開。

高盛一份報告的判斷與此同向：AI 智慧體會隨著使用量激增而提振科技板塊的現金流。^{^[8]}翻譯成產業語言——代理把 AI 從「偶爾問一句」的間歇負載，變成「持續替你幹活」的常駐負載，用量是結構性上台階，而非線性增長。

順著五層往下捋這條傳導鏈就很清楚：

應用層（apps）：代理產品起量，單個請求背後是 8～15 次呼叫；
模型層（models）：每次呼叫都是一次推理請求，密度陡增；
基礎設施層（infra）：AI 工廠被推向更高負載，推理徹底取代訓練成為主產線；
晶片層（chips）：最終落在推理 GPU、HBM 與互聯的需求上。

這正是黃仁勳這兩年把口號改成「每個 token 的成本（cost per token）才是唯一重要的指標」的需求側背景。^{^[9]}代理元年若兌現，它是蛋糕最上層最性感的應用；但它吃掉的算力，會一路往下傳，最後變成輝達推理產線上的訂單。應用層的故事，本質是晶片層的需求。

四、卡位戰：三家在搶同一塊地

代理不是 OpenAI 一家的敘事，這是一場三國殺。

谷歌在 2026 年的 Cloud Next 大會上，把 Vertex AI 整體升級為「Gemini 企業級代理平台」，整合 200 多個模型（連競爭對手 Anthropic 的 Claude 都納進來），並推 A2A（agent 間通訊）協議與 Workspace Studio，擺明了用全棧雲能力對抗 OpenAI 和 Anthropic。^{^[10]}

Anthropic 則走另一條路。它靠 Claude Code 這款程式設計代理在企業側一路領跑，又把 Claude Computer Use（計算機操作）做成研究預覽——讓模型能看螢幕、點按鈕、開應用、填表格，獨立完成多步工作流，把 Claude 從「會聊天的 AI」變成「自主的數字工人」。^{^[11]}而微軟則把代理能力往 Office 365 與 GitHub 裡嵌、靠渠道優勢卡位；它和谷歌正各自用龐大的雲業務與資產負債表，全力殺進這塊戰場。^{^[4]}

三家路線不完全一樣：OpenAI 走「讓通用代理住進 ChatGPT、順手做成崗位外掛」的消費—企業兩頭通吃；谷歌走「把代理做成企業雲平台的一部分」；Anthropic 更像「把代理能力做成給別人搭產品的地基」。但底座只有一個——算力。本站新聞區這幾天反覆出現的一條線索是：連 SpaceX 都在向谷歌、Anthropic 出租算力，幾家 AI 公司則在四處鎖定資料中心與電力。代理軍備競賽的上半場拼模型與產品，下半場拼的是誰能用更低的每 token 成本把代理持續跑起來——這又把球踢回了基礎設施與晶片層。

五、誰賺到錢：價值捕獲的三方之爭

代理元年若兌現，錢會落到誰口袋裡？目前是三方在搶，遠未定論：

模型商（OpenAI、谷歌、Anthropic）：靠訂閱與按量呼叫收錢，離使用者最近、品牌最響；但彼此卷價格、卷能力，誰也沒拿到定價權。
應用與 SaaS 廠商：代理既可能替代一部分現成軟體，也可能反過來被它們嵌入增強——這塊是價值捕獲之爭最激烈的地帶，傳統軟體的「按席位收費」模式正被「按完成任務收費」衝擊。
賣鏟子的輝達：無論上面三方誰勝出，代理跑起來都要燒推理算力，它在底層相對旱澇從容。

硬幣的另一面，是「誰被替代」。代理動搖的，可能是軟體業沿用多年的計價邏輯——SaaS 按「席位」收費，一個人頭一份訂閱；而代理按「完成的任務」幹活，一個代理可能頂幾個席位，也可能去做過去根本沒人做的活。越是流程標準、人力密集的品類（客服、初級資料分析、基礎設計、外包程式設計），越可能被代理從「增強」一路推到「替代」。

而它們讓出的那部分人力預算，會不會轉頭變成模型呼叫的算力預算？這恰恰是代理敘事裡對輝達最有利的一條暗線——它把「省下的人力成本」翻譯成「新增的 token 消耗」，又是一筆順著五層往下走的賬。

在格局未明的早期，最確定的受益位置，往往不是最熱鬧的應用層，而是底層。但「最確定」不等於「沒有變數」——而最大的那個變數，藏在下一節。

六、潑盆冷水：代理「看著行，用起來崩」

把賬算到這裡，必須停下來潑一盆冷水。因為代理元年最大的風險，不是不夠性感，而是兌現不了。

來自生產一線的資料並不好看。一項對 847 個企業代理部署的分析顯示，76% 在上線頭 90 天內出過嚴重故障。^{^[12]}另一份覆蓋 2527 名高管的調查更直接：74% 的企業，已經在生產環境裡回滾或關停過至少一個代理。^{^[13]}

崩在哪？業內歸納出幾個結構性原因。^{^[14]}其一是demo 與生產的鴻溝：演示永遠用乾淨的輸入、配合的使用者、設定好的場景，而真實世界的輸入從不乾淨。其二，也是最致命的——複合失敗：代理是多步流水線，每一步的錯誤會沿鏈條累積。即便單步可靠性高達 85%，一個 10 步的工作流端到端成功率也只剩約 20%；而企業最想自動化的，恰恰是那些長鏈條、高價值的任務。長鏈條任務和短問答本就是兩類東西，前者的容錯空間小得多，偏偏又是最值錢、最被寄予厚望的那批——業內甚至已經開始整理「年度代理翻車清單」，專門覆盤那些在生產裡把事情辦砸的知名案例。其三是整合牆：約 62% 的失敗卡在認證與對接上，每接一個工具都要定製一個聯結器。更廣的圖景也不樂觀——一項面向企業的調查發現，近八成公司在落地 AI 時撞上各種障礙，儘管投入並不小。代理不是不能用，而是「從 demo 到生產」這最後一公里，遠比釋出會上看到的難走得多。Gartner 因此預警，超過 40% 的代理類 AI 專案，可能在 2027 年前被取消。^{^[14]^[15]}

這盆冷水，對「五層蛋糕」的算力賬有直接含義：如果代理大面積回滾、採用被推遲，那麼前面算的「token 需求結構性上台階」就要打折扣。 利好底層的邏輯沒錯，但兌現的時間表和斜率，取決於代理能不能真正在生產裡跑穩。這是觀點與資料的並陳，不是定論——但它是任何把代理當成輝達需求新引擎的樂觀敘事，都繞不過去的一道坎。

七、對輝達與五層的含義：一個帶「如果」的需求側

把多空兩邊收攏，落到產業含義上，用條件式說清楚：

如果代理在生產端的可靠性問題被逐步解決（業內已觀察到，配齊自動化評測體系的代理，回滾率能從 47% 降到 9%），那麼代理就是推理負載的一台新引擎——它把每個使用者請求放大成 8～15 次呼叫，需求順五層往下傳，最終結結實實落在輝達的推理產線、HBM 與互聯上。^{^[14]}

但如果可靠性遲遲過不了關、企業持續回滾，那麼這股需求的兌現就會被推後、被打折；與此同時，每任務 0.27～5.12 美元的算力成本，還要回答一個更尖銳的問題——代理跑一次的定價，能不能覆蓋它燒掉的 token？

把數字擺出來體感更強：一個代理任務的算力成本是 0.27～5.12 美元，而許多面向個人與中小企業的代理訂閱，月費不過二三十美元。只要使用者每天多跑幾個複雜任務，單個使用者就可能從「賺錢」滑向「賠錢」——這也解釋了頭部模型商為何一邊猛推代理、一邊死守閉源旗艦模型的高毛利：它們比誰都清楚，代理這本算力賬，眼下多半還是虧的。本站「輝達護城河觀察」系列在《推理經濟學》一篇裡已拆過：推理單價在崩塌、AI 賬單卻在膨脹，「越用越虧」的陰影同樣籠罩著代理。^{^[9]}

代理元年對輝達，是一張幾乎確定方向、但不確定斜率的需求訂單。方向利好底層，斜率取決於應用層能不能把代理跑穩、跑到盈利。

八、接下來 30 / 60 / 90 天，盯這幾件事

留幾個可驗證的觀察點，替代空泛的結論：

rollout 兌現度：Codex 進 ChatGPT 的「未來幾周」是否按期、採用率如何，是敘事落不落地的第一塊試金石；
金融兩類外掛的真實邊界：公開股票投資與投行外掛在合規、可靠性上到底能走多遠，決定代理啃「高薪白領工種」是真突破還是 demo；
可靠性曲線：企業代理的回滾率、生產故障率是否隨評測體系普及而下降——這是「需求斜率」最硬的先行指標；
算力訊號：代理起量是否傳導為頭部模型商推理賬單的抬升、以及輝達推理晶片需求側的口風變化——這是五層傳導是否成立的硬證據；
對位動作：谷歌 Gemini、Anthropic Claude 的代理產品如何接招，誰先把「每 token 成本」壓到能盈利的位置。

代理元年是不是真的來了，三個月後這幾個指標會比任何釋出會都誠實——順著產業鏈往下看，答案就在那裡。

AI 代理元年：OpenAI 把 Codex 塞進 ChatGPT，應用層的卡位戰開打

一、發生了什麼：Codex 從「寫程式碼」變成「幹活」

二、為什麼叫「代理元年」：聊天與代理，是兩種東西

三、算力賬：代理比聊天，燒的是另一個量級

四、卡位戰：三家在搶同一塊地

五、誰賺到錢：價值捕獲的三方之爭

六、潑盆冷水：代理「看著行，用起來崩」

七、對輝達與五層的含義：一個帶「如果」的需求側

八、接下來 30 / 60 / 90 天，盯這幾件事

常見問題

參考來源

一、發生了什麼：Codex 從「寫程式碼」變成「幹活」

二、為什麼叫「代理元年」：聊天與代理，是兩種東西

三、算力賬：代理比聊天，燒的是另一個量級

四、卡位戰：三家在搶同一塊地

五、誰賺到錢：價值捕獲的三方之爭

六、潑盆冷水：代理「看著行，用起來崩」

七、對輝達與五層的含義：一個帶「如果」的需求側

八、接下來 30 / 60 / 90 天，盯這幾件事

常見問題

參考來源

相關百科

跨站相關詞條

相關每日新聞