2024 年某個時點,瑞典支付公司 Klarna 做了一件被整個行業當作樣板的事:它裁掉約 700 個客服與支持崗位,換上一個與 OpenAI 合作開發的 AI 助手。高峰期,Klarna 對外宣稱這個助手處理了約三分之二到四分之三的客戶交互,相當於 700 名全職客服的工作量。創始人兼 CEO Sebastian Siemiatkowski 四處站臺,把它講成 AI 重寫一家公司成本結構的活教材。

十八個月後,Klarna 在悄悄招人。客戶滿意度掉下來之後,它重新把人請了回來,CEO 公開認錯,說自己太看重效率和成本,結果是質量下降,這條路走不通[4]

把這件事放在 2026 年的背景裡,它就更刺眼了。這一年被反覆叫作「agent 元年」:模型夠強了,錢砸下去了,部署率創了新高。可與此同時,另一組數字在往相反的方向走——放棄率、取消率、回滾率,全在飆升。兩條曲線同時衝頂,本身就是個謎面。

一邊唱多 2028,一邊警告 2027

先把樂觀的那一面擺全,因為它是真的。

2026 年 6 月 24 日的英偉達年度股東會上,黃仁勳宣佈「有用的 AI」時代已經到來,稱 AI agent 將成為未來數十年驅動算力需求的核心引擎[7][8]。他給的論據很具體:全球開發者合併的代碼請求,2024 年是 4 億次,2025 年 5 億次,到 2026 年頭幾個月已經接近翻了三倍[7]。他還把賬算到更大的尺度上:全球約 3000 萬軟件開發者,年薪酬合計約 3 萬億美元,他們的工作又託著約 100 萬億美元的經濟活動;如今 agent 正在放大這群人的產出,被放大出來的部分已接近 9 萬億美元,比一年前多出約 6 萬億[7]。數字大得有些抽象,方向卻很清楚——在他口中,AI 不再是成本,是槓桿。當 AI 能幹活,token 就有了價值;token 一旦產生利潤,對算力的需求就會加速。這是賣鏟子的人能講的最乾淨的故事。

研究機構這邊也在添柴。Gartner 預測,到 2028 年,15% 的日常工作決策將由 agentic AI 自主做出,而 2024 年這個數字是 0%;同樣到 2028 年,33% 的企業軟件應用將內置 agentic AI,2024 年這一比例還不到 1%[1]。從 0 到 15%、從不足 1% 到 33%,這是把 agent 寫進了企業軟件的默認配置。

熱度不只在臺上。Gartner 2025 年初對三千多名企業聽眾做過一次摸底:19% 說已經大舉投資 agentic AI,42% 在保守試水,完全沒碰的只有 8%,剩下的都在觀望[1]。九成以上的企業要麼已經下場、要麼準備下場——這是一場沒人想缺席的派對。

模型能力本身早就不是瓶頸。GPT-5.5 這一代模型在 SWE-bench Verified 這類真實軟件工程基準上已經做到約 80% 的解決率——一個能把約八成真實代碼缺陷修對的系統,再說「模型還不夠強」就很難自圓其說。

奇怪的地方就在這裡。能力到位、資本到位、機構看多到 2028 年,可同一家 Gartner,在同一份判斷裡,給出了另一個數字:超過 40% 的 agentic AI 項目,將在 2027 年底前被取消[1]。原因寫得很直白——成本失控、商業價值算不清、風險控制不到位。

一邊唱多 2028,一邊警告 2027 先黃掉四成。這不是兩家機構打架,是同一家機構在同一口氣裡說的。它知道一些別的東西。

放棄率從 17% 躥到 42%

Klarna 不是孤例,它只是講得最響的那個。把鏡頭拉遠,會看到一整片正在收縮的戰場。

S&P Global Market Intelligence 在 2025 年 10 月的調查裡給出一個刺眼的同比變化:放棄「大部分」AI 項目的公司比例,從一年前的 17% 升到了 42%[3]。一年時間,比例翻了兩倍多。更日常的損耗藏在另一個數字裡——受訪企業平均有 46% 的 AI 項目,在「概念驗證」走到「規模化採用」之間被砍掉[3]。每兩個進了試點的項目,差不多就有一個走不出試點。

滿意度也在全線回落。S&P 那份調查裡,認為生成式 AI 投資帶來正面影響的比例,在每一個目標維度上都比一年前低了:營收增長從 81% 降到 76%,成本管理從 79% 降到 74%,風險管理從 74% 降到 70%[3]。沒有哪一項崩盤,但每一項都在往下滲。

最重的一錘來自 MIT。NANDA 項目 2025 年 8 月發佈的《The GenAI Divide》報告,做法是 150 場高管訪談、350 名員工調查,外加 300 個公開部署案例的分析。結論是:95% 的企業生成式 AI 試點,對損益表沒有任何可衡量的回報;真正實現快速營收增長的,只有約 5%[2]

這 95% 不是「還沒賺錢」,是連一條能寫進財報的影響線都畫不出來。而企業為這件事已經投進去 300 到 400 億美元[2]

同一份報告裡還藏著一個更扎心的錯配:超過一半的生成式 AI 預算,砸在了銷售和營銷工具上;可真正跑出回報的,卻是沒人願意上臺講的後臺自動化——砍掉外包、壓低代理機構費用、把繁瑣流程理順這些不起眼的活[2]。錢系統性地投錯了方向,本身就是一種症狀:很多公司根本沒想清楚要讓 AI 替自己幹什麼,只是因為別人都在買,自己也得買一個。

錢花了,模型有了,部署鋪開了,九成五打了水漂。謎面到這裡算是完整了:模型越強、部署越廣,落地反而越難。問題出在哪?

排除法:不是模型,不是錢,也不全是假貨

偵探的活,是先把看上去顯然的嫌疑人一個個排除掉。

第一個嫌疑人:模型能力不夠。 不成立。SWE-bench Verified 約 80% 的解決率、黃仁勳擺出的代碼合併量三倍增長[7]、Gartner 看到 2028 年的滲透曲線,都指向同一件事——能力這一頭是過關的。如果是模型不行,回報應該隨模型變強而上升,而不是在 GPT-5.5 這一代反而看到放棄率翻倍。能力和落地這兩條線,已經脫鉤了。

第二個嫌疑人:沒捨得花錢。 也不成立。300 到 400 億美元不是試水的量級[2]。S&P 調查裡 42% 的公司是「放棄」,不是「沒啟動」——它們是先投了,跑了一陣,再撤的[3]。撤退本身就證明前面真金白銀地投過。錢不是沒到位,是投進去沒冒出水花。

第三個嫌疑人:買到了假貨,也就是「agent washing」。 這個有點料。Gartner 估計,數千家對外號稱做 agentic AI 的廠商裡,真正名副其實的只有約 130 家[1]。市場上絕大多數掛著「智能體」招牌的產品,拆開看不過是套了層殼的聊天機器人或老式自動化流程。買了假貨跑不通,天經地義。

但 agent washing 只能解釋一層,解釋不了全部。如果失敗全是因為買錯了東西,那自建團隊——繞過廠商、自己寫——理應做得更好。事實正相反。MIT 的數據是一記反手:買廠商方案、建立外部夥伴關係的成功率約 67%,而企業自建的成功率,只有其約三分之一[2]。自己動手的人,掉得更慘。

三個顯而易見的解釋都按下去了。模型夠強,錢夠多,假貨只是一層皮。真正的兇手,藏在一個所有人都看得見、卻沒盯著看的地方。

真兇在組織,不在模型

MIT 給那道橫在 95% 和 5% 之間的裂縫起了個名字:learning gap,學習鴻溝[2]

它指的不是模型學得快不快,而是企業把 AI 接進自己的工作流程、組織結構和文化的那份能力。是「人」這一環——把一個能幹活的系統,真正嵌進一家公司每天怎麼運轉裡去。模型是現成的,難的是組織得圍著它重新長一遍。

「買 67%、自建三分之一」這組對比,正是這個結論的硬證據。它表面上像是在說「別自己造、去採購」,往深一層看,它說的是另一回事:贏家不是技術最強的那群,而是最懂怎麼把 AI 縫進既有業務流程的那群。買廠商方案,買的往往不只是一個模型,而是一套已經替別人趟過流程、踩過坑的嵌入方法。自建團隊常常困在能跑通 demo、卻接不進真實流程的那道坎上——模型在沙盒裡表現優異,一拉進滿是例外、審批、合規和老系統的真實環境,就散架了。

Klarna 的反轉,按這個框架重看,意味就變了。它不是「AI 客服不行」,而是組織把人撤得太狠、太早,沒給那些 AI 接不住的邊緣案例——需要同理心、需要判斷、需要升級處理的——留下接手的人[4]。質量塌方塌在 AI 與人的分工沒編排好,不塌在模型答得對不對。

澳洲聯邦銀行(Commonwealth Bank of Australia)的案子,把這層道理擺得更赤裸。2025 年 8 月,這家銀行宣佈用一個 AI 語音機器人替換客服直連部門的 45 個崗位,理由是語音機器人能把通話量每週壓下約 2000 通。結果裝上去之後,通話量不降反升,管理層不得不安排加班、讓團隊主管親自去接電話[5]。到 8 月 21 日,銀行撤回了裁員決定,原話承認:「CBA 最初判定客服直連部門這 45 個崗位不再需要,沒有充分考慮所有相關業務因素,這一錯誤意味著這些崗位並非冗餘。」[5][6]

把這兩件事並排放,規律就出來了:栽跟頭的不是模型答得準不準,是企業誤判了一項工作能不能被整段切掉、AI 接管之後那些接不住的部分由誰來兜。這是組織設計的失誤,被錯記到了技術賬上。

還有一層,藏在 agent 這個詞本身裡。聊天機器人答錯了,頂多是一句不靠譜的回覆;agent 是會動手的——它下單、改數據、發郵件、調用系統。一旦放它進真實流程,權限給到哪、出了錯誰來兜、每一步留不留得下可審計的痕跡,全都變成必須當場回答的問題。Gartner 把「風險控制不到位」和成本失控、價值算不清並列為項目夭折的三大主因,說的正是這件事[1]。模型再聰明,也替不了一家公司去想清楚「我敢讓它碰到哪一步」。

整個行業在補的,是編排,不是模型

如果真兇在組織、在編排、在治理這一層,那麼最該信的,是看產業裡手握資源的玩家把下一筆錢砸向哪。砸向模型,說明大家還認為是能力問題;砸向「怎麼把模型管起來、嵌進去」,說明行業自己已經認定瓶頸換了位置。

證據很一致,都指向後者。

英偉達推出了一套叫 Secure Agent Workspace 的參考設計,隨 Claude 在 Azure GB300 上線一起放出。它不是一個更強的模型,而是一張在受控環境裡運行自主代理的藍圖,把身份、網絡訪問、憑證、運行時策略這些控制項做成基礎設施級的管控[9]。說白了,是在回答「怎麼讓 agent 在企業裡跑得安全、可審計、可收口」,而不是「怎麼讓 agent 更聰明」。

AWS 走的是另一條路,落點一樣。它用自研芯片 Trainium 壓成本,用 Bedrock 承接模型生態,再把一整套 Agentic AI 工具鏈做出來,專門負責把模型嵌進企業的工作流程;AWS 高管把這一刻稱作「Agentic AI 爆發的拐點」[10]。這套打法裡最值錢的不是模型——模型在 Bedrock 上是可替換的貨架商品——而是那層把模型接進業務的編排工具。

這些工具聽起來都不性感,卻恰好對著失敗的病灶。一個 agent 要在企業裡活下來,要的不只是答得對,而是一整套配套:它能碰哪些系統、動作前要不要人批、越界了怎麼被攔下、事後能不能覆盤追責。把這些縫好,比再訓練一個更強的模型難得多、也慢得多——因為要改的不是代碼,是一家公司既有的權責劃分和辦事流程。

這就是新的卡位戰。雲廠商不再單純比誰的模型分數高,開始比誰的安全、治理、編排做得更順手。這也是行業自己的判斷:當前企業級 AI 部署,正卡在工作流整合、治理與組織採納這幾道關口上[12]。整個產業不約而同地在補同一塊短板,而這塊短板,恰恰不在模型那一頭。

於是回滾率、取消率這兩個一直被當作噪音的數字,其實是這套體系最靈敏的體溫計。它們量的從來不是 AI 行不行,量的是組織有沒有跟上。模型分數會騙人——它在沙盒裡好看;放棄率不會,它記錄的是真實世界裡一個項目最終有沒有活下來。

也有跑通的一小撮

把這篇寫成一邊倒的唱衰,就讀錯了。同一時間,確實有一小撮把 agent 真正跑進了流程,而且跑得很賺錢。

SemiAnalysis 把 2025 年 12 月視為 AI 商業化真正的拐點——agent 從那時起開始穩定地跑進企業流程。一個被反覆引用的樣本是 Anthropic:年化營收從約 90 億美元躥到約 440 億美元,推理毛利率從 38% 提到 70% 以上[11]。營收漲了近四倍,毛利率從勉強為正提到健康水平,這不是泡沫的表現,是真有人在為它持續付錢。

這一小撮的存在,恰恰把前面那道學習鴻溝反襯得更清楚。同樣的模型擺在所有人面前,5% 的贏家和 95% 的失敗者,分野不在拿到的模型不同,在嵌進流程、組織隨之改造的能力不同。買方成功率 67%、自建三分之一[2],是同一條分界線在企業內部的投影。能力是公共品,編排是私有功夫——這才是真正拉開差距的地方。

把多方的數字疊在一起,畫面反而清晰了:模型能力在漲,少數贏家在悶聲賺錢,而大多數項目死在組織沒跟上。這三件事並不矛盾,它們是同一個故事的三個切面。

答案的雛形,早就藏在 Klarna 裡

回到開頭那家瑞典公司。

Klarna 重新招人之後,沒有簡單地走回頭路。它搭起一套混合模式:AI 處理基礎和重複的詢問,人來接那些需要同理心、判斷或升級的邊緣案例,客服改成「Uber 式」的靈活遠程用工[4]。這不是 AI 的撤退,也不是人的復辟,是一次重新編排——把人和 AI 各自該乾的部分,重新切了一刀。

這條混合線,差不多就是整道謎題的答案雛形。卡住企業的,從來不是「AI 能不能替代人」這個非此即彼的問題;是「組織該怎麼重新安排人與 AI 的分工」這個更難、更慢、更不性感的活。前者是模型的事,一年就能翻幾代;後者是人的事,是流程、是結構、是文化,得一寸一寸地重新長。

所以 2026 年這個「agent 元年」,最該被重新理解的不是 agent 強到了什麼程度,而是真正的壁壘早已悄悄換了位置——從模型的能力,挪到了組織把它裝進自己身體裡的功夫。回滾率、取消率高懸不下,量的不是機器跟沒跟上,是人跟沒跟上。

Klarna 用十八個月、約 700 個崗位和一次公開認錯,替整個行業先把這道題做錯了一遍。它留下的那套混合模式,比它當初省下的成本值錢得多。