2026 年明明是 AI agent 元年，為什麼企業落地反而更難了？

模型能力早已夠用，卡住的是組織這一環。MIT NANDA 報告把根因歸為『learning gap』——企業把 AI 接進工作流、組織結構與文化的能力沒跟上。S&P 數據顯示，平均有 46% 的項目在概念驗證到規模化之間被砍掉。難的不是技術，是組織沒跟上。

什麼是『agent washing』？它能解釋這波放棄潮嗎？

agent washing 指廠商把普通自動化或聊天機器人包裝成『agentic AI』來賣。Gartner 估計數千家號稱做 agentic 的廠商裡只有約 130 家是真的。它能解釋一部分『買了假貨』的失敗，但只是一層，並非全部——自建團隊的失敗率反而更高。

企業自建 AI 系統和買廠商方案，哪個成功率更高？

據 MIT NANDA 報告，買廠商方案、建立外部夥伴關係的成功率約 67%，自建的成功率只有其約三分之一。贏家是會把 AI 嵌進業務流程的，不是會自己調模型的。

Klarna 用 AI 替代客服後來怎麼樣了？

Klarna 在 2022 至 2024 年裁掉約 700 個客服崗，換上與 OpenAI 合作開發的助手，高峰期稱 AI 處理了約三分之二到四分之三的客戶交互。2025 年中客戶滿意度下滑後，Klarna 重新招聘人類客服，轉向 AI 處理重複詢問、人接複雜與升級案例的混合模式。

既然這麼多項目失敗，是不是說明 AI agent 不行？

不能這麼讀。同期也有跑通的一小撮：據 SemiAnalysis，Anthropic 年化營收從約 90 億美元升到約 440 億美元，推理毛利率從 38% 升到 70% 以上。回滾率高，量的不是 AI 行不行，是組織有沒有把它嵌進流程。

AI agent 元年的反信號：回滾率，才是真正的體溫計 · 深度報道

2024 年某個時點，瑞典支付公司 Klarna 做了一件被整個行業當作樣板的事：它裁掉約 700 個客服與支持崗位，換上一個與 OpenAI 合作開發的 AI 助手。高峰期，Klarna 對外宣稱這個助手處理了約三分之二到四分之三的客戶交互，相當於 700 名全職客服的工作量。創始人兼 CEO Sebastian Siemiatkowski 四處站臺，把它講成 AI 重寫一家公司成本結構的活教材。

十八個月後，Klarna 在悄悄招人。客戶滿意度掉下來之後，它重新把人請了回來，CEO 公開認錯，說自己太看重效率和成本，結果是質量下降，這條路走不通^[4]。

把這件事放在 2026 年的背景裡，它就更刺眼了。這一年被反覆叫作「agent 元年」：模型夠強了，錢砸下去了，部署率創了新高。可與此同時，另一組數字在往相反的方向走——放棄率、取消率、回滾率，全在飆升。兩條曲線同時衝頂，本身就是個謎面。

一邊唱多 2028，一邊警告 2027

先把樂觀的那一面擺全，因為它是真的。

2026 年 6 月 24 日的英偉達年度股東會上，黃仁勳宣佈「有用的 AI」時代已經到來，稱 AI agent 將成為未來數十年驅動算力需求的核心引擎^[7]^[8]。他給的論據很具體：全球開發者合併的代碼請求，2024 年是 4 億次，2025 年 5 億次，到 2026 年頭幾個月已經接近翻了三倍^[7]。他還把賬算到更大的尺度上：全球約 3000 萬軟件開發者，年薪酬合計約 3 萬億美元，他們的工作又託著約 100 萬億美元的經濟活動；如今 agent 正在放大這群人的產出，被放大出來的部分已接近 9 萬億美元，比一年前多出約 6 萬億^[7]。數字大得有些抽象，方向卻很清楚——在他口中，AI 不再是成本，是槓桿。當 AI 能幹活，token 就有了價值；token 一旦產生利潤，對算力的需求就會加速。這是賣鏟子的人能講的最乾淨的故事。

研究機構這邊也在添柴。Gartner 預測，到 2028 年，15% 的日常工作決策將由 agentic AI 自主做出，而 2024 年這個數字是 0%；同樣到 2028 年，33% 的企業軟件應用將內置 agentic AI，2024 年這一比例還不到 1%^[1]。從 0 到 15%、從不足 1% 到 33%，這是把 agent 寫進了企業軟件的默認配置。

熱度不只在臺上。Gartner 2025 年初對三千多名企業聽眾做過一次摸底：19% 說已經大舉投資 agentic AI，42% 在保守試水，完全沒碰的只有 8%，剩下的都在觀望^[1]。九成以上的企業要麼已經下場、要麼準備下場——這是一場沒人想缺席的派對。

模型能力本身早就不是瓶頸。GPT-5.5 這一代模型在 SWE-bench Verified 這類真實軟件工程基準上已經做到約 80% 的解決率——一個能把約八成真實代碼缺陷修對的系統，再說「模型還不夠強」就很難自圓其說。

奇怪的地方就在這裡。能力到位、資本到位、機構看多到 2028 年，可同一家 Gartner，在同一份判斷裡，給出了另一個數字：超過 40% 的 agentic AI 項目，將在 2027 年底前被取消^[1]。原因寫得很直白——成本失控、商業價值算不清、風險控制不到位。

一邊唱多 2028，一邊警告 2027 先黃掉四成。這不是兩家機構打架，是同一家機構在同一口氣裡說的。它知道一些別的東西。

放棄率從 17% 躥到 42%

Klarna 不是孤例，它只是講得最響的那個。把鏡頭拉遠，會看到一整片正在收縮的戰場。

S&P Global Market Intelligence 在 2025 年 10 月的調查裡給出一個刺眼的同比變化：放棄「大部分」AI 項目的公司比例，從一年前的 17% 升到了 42%^[3]。一年時間，比例翻了兩倍多。更日常的損耗藏在另一個數字裡——受訪企業平均有 46% 的 AI 項目，在「概念驗證」走到「規模化採用」之間被砍掉^[3]。每兩個進了試點的項目，差不多就有一個走不出試點。

滿意度也在全線回落。S&P 那份調查裡，認為生成式 AI 投資帶來正面影響的比例，在每一個目標維度上都比一年前低了：營收增長從 81% 降到 76%，成本管理從 79% 降到 74%，風險管理從 74% 降到 70%^[3]。沒有哪一項崩盤，但每一項都在往下滲。

最重的一錘來自 MIT。NANDA 項目 2025 年 8 月發佈的《The GenAI Divide》報告，做法是 150 場高管訪談、350 名員工調查，外加 300 個公開部署案例的分析。結論是：95% 的企業生成式 AI 試點，對損益表沒有任何可衡量的回報；真正實現快速營收增長的，只有約 5%^[2]。

這 95% 不是「還沒賺錢」，是連一條能寫進財報的影響線都畫不出來。而企業為這件事已經投進去 300 到 400 億美元^[2]。

同一份報告裡還藏著一個更扎心的錯配：超過一半的生成式 AI 預算，砸在了銷售和營銷工具上；可真正跑出回報的，卻是沒人願意上臺講的後臺自動化——砍掉外包、壓低代理機構費用、把繁瑣流程理順這些不起眼的活^[2]。錢系統性地投錯了方向，本身就是一種症狀：很多公司根本沒想清楚要讓 AI 替自己幹什麼，只是因為別人都在買，自己也得買一個。

錢花了，模型有了，部署鋪開了，九成五打了水漂。謎面到這裡算是完整了：模型越強、部署越廣，落地反而越難。問題出在哪？

排除法：不是模型，不是錢，也不全是假貨

偵探的活，是先把看上去顯然的嫌疑人一個個排除掉。

第一個嫌疑人：模型能力不夠。 不成立。SWE-bench Verified 約 80% 的解決率、黃仁勳擺出的代碼合併量三倍增長^[7]、Gartner 看到 2028 年的滲透曲線，都指向同一件事——能力這一頭是過關的。如果是模型不行，回報應該隨模型變強而上升，而不是在 GPT-5.5 這一代反而看到放棄率翻倍。能力和落地這兩條線，已經脫鉤了。

第二個嫌疑人：沒捨得花錢。 也不成立。300 到 400 億美元不是試水的量級^[2]。S&P 調查裡 42% 的公司是「放棄」，不是「沒啟動」——它們是先投了，跑了一陣，再撤的^[3]。撤退本身就證明前面真金白銀地投過。錢不是沒到位，是投進去沒冒出水花。

第三個嫌疑人：買到了假貨，也就是「agent washing」。 這個有點料。Gartner 估計，數千家對外號稱做 agentic AI 的廠商裡，真正名副其實的只有約 130 家^[1]。市場上絕大多數掛著「智能體」招牌的產品，拆開看不過是套了層殼的聊天機器人或老式自動化流程。買了假貨跑不通，天經地義。

但 agent washing 只能解釋一層，解釋不了全部。如果失敗全是因為買錯了東西，那自建團隊——繞過廠商、自己寫——理應做得更好。事實正相反。MIT 的數據是一記反手：買廠商方案、建立外部夥伴關係的成功率約 67%，而企業自建的成功率，只有其約三分之一^[2]。自己動手的人，掉得更慘。

三個顯而易見的解釋都按下去了。模型夠強，錢夠多，假貨只是一層皮。真正的兇手，藏在一個所有人都看得見、卻沒盯著看的地方。

真兇在組織，不在模型

MIT 給那道橫在 95% 和 5% 之間的裂縫起了個名字：learning gap，學習鴻溝^[2]。

它指的不是模型學得快不快，而是企業把 AI 接進自己的工作流程、組織結構和文化的那份能力。是「人」這一環——把一個能幹活的系統，真正嵌進一家公司每天怎麼運轉裡去。模型是現成的，難的是組織得圍著它重新長一遍。

「買 67%、自建三分之一」這組對比，正是這個結論的硬證據。它表面上像是在說「別自己造、去採購」，往深一層看，它說的是另一回事：贏家不是技術最強的那群，而是最懂怎麼把 AI 縫進既有業務流程的那群。買廠商方案，買的往往不只是一個模型，而是一套已經替別人趟過流程、踩過坑的嵌入方法。自建團隊常常困在能跑通 demo、卻接不進真實流程的那道坎上——模型在沙盒裡表現優異，一拉進滿是例外、審批、合規和老系統的真實環境，就散架了。

Klarna 的反轉，按這個框架重看，意味就變了。它不是「AI 客服不行」，而是組織把人撤得太狠、太早，沒給那些 AI 接不住的邊緣案例——需要同理心、需要判斷、需要升級處理的——留下接手的人^[4]。質量塌方塌在 AI 與人的分工沒編排好，不塌在模型答得對不對。

澳洲聯邦銀行(Commonwealth Bank of Australia)的案子，把這層道理擺得更赤裸。2025 年 8 月，這家銀行宣佈用一個 AI 語音機器人替換客服直連部門的 45 個崗位，理由是語音機器人能把通話量每週壓下約 2000 通。結果裝上去之後，通話量不降反升，管理層不得不安排加班、讓團隊主管親自去接電話^[5]。到 8 月 21 日，銀行撤回了裁員決定，原話承認：「CBA 最初判定客服直連部門這 45 個崗位不再需要，沒有充分考慮所有相關業務因素，這一錯誤意味著這些崗位並非冗餘。」^[5]^[6]

把這兩件事並排放，規律就出來了：栽跟頭的不是模型答得準不準，是企業誤判了一項工作能不能被整段切掉、AI 接管之後那些接不住的部分由誰來兜。這是組織設計的失誤，被錯記到了技術賬上。

還有一層，藏在 agent 這個詞本身裡。聊天機器人答錯了，頂多是一句不靠譜的回覆；agent 是會動手的——它下單、改數據、發郵件、調用系統。一旦放它進真實流程，權限給到哪、出了錯誰來兜、每一步留不留得下可審計的痕跡，全都變成必須當場回答的問題。Gartner 把「風險控制不到位」和成本失控、價值算不清並列為項目夭折的三大主因，說的正是這件事^[1]。模型再聰明，也替不了一家公司去想清楚「我敢讓它碰到哪一步」。

整個行業在補的，是編排，不是模型

如果真兇在組織、在編排、在治理這一層，那麼最該信的，是看產業裡手握資源的玩家把下一筆錢砸向哪。砸向模型，說明大家還認為是能力問題；砸向「怎麼把模型管起來、嵌進去」，說明行業自己已經認定瓶頸換了位置。

證據很一致，都指向後者。

英偉達推出了一套叫 Secure Agent Workspace 的參考設計，隨 Claude 在 Azure GB300 上線一起放出。它不是一個更強的模型，而是一張在受控環境裡運行自主代理的藍圖，把身份、網絡訪問、憑證、運行時策略這些控制項做成基礎設施級的管控^[9]。說白了，是在回答「怎麼讓 agent 在企業裡跑得安全、可審計、可收口」，而不是「怎麼讓 agent 更聰明」。

AWS 走的是另一條路，落點一樣。它用自研芯片 Trainium 壓成本，用 Bedrock 承接模型生態，再把一整套 Agentic AI 工具鏈做出來，專門負責把模型嵌進企業的工作流程；AWS 高管把這一刻稱作「Agentic AI 爆發的拐點」^[10]。這套打法裡最值錢的不是模型——模型在 Bedrock 上是可替換的貨架商品——而是那層把模型接進業務的編排工具。

這些工具聽起來都不性感，卻恰好對著失敗的病灶。一個 agent 要在企業裡活下來，要的不只是答得對，而是一整套配套：它能碰哪些系統、動作前要不要人批、越界了怎麼被攔下、事後能不能覆盤追責。把這些縫好，比再訓練一個更強的模型難得多、也慢得多——因為要改的不是代碼，是一家公司既有的權責劃分和辦事流程。

這就是新的卡位戰。雲廠商不再單純比誰的模型分數高，開始比誰的安全、治理、編排做得更順手。這也是行業自己的判斷：當前企業級 AI 部署，正卡在工作流整合、治理與組織採納這幾道關口上^[12]。整個產業不約而同地在補同一塊短板，而這塊短板，恰恰不在模型那一頭。

於是回滾率、取消率這兩個一直被當作噪音的數字，其實是這套體系最靈敏的體溫計。它們量的從來不是 AI 行不行，量的是組織有沒有跟上。模型分數會騙人——它在沙盒裡好看；放棄率不會，它記錄的是真實世界裡一個項目最終有沒有活下來。

也有跑通的一小撮

把這篇寫成一邊倒的唱衰，就讀錯了。同一時間，確實有一小撮把 agent 真正跑進了流程，而且跑得很賺錢。

SemiAnalysis 把 2025 年 12 月視為 AI 商業化真正的拐點——agent 從那時起開始穩定地跑進企業流程。一個被反覆引用的樣本是 Anthropic：年化營收從約 90 億美元躥到約 440 億美元，推理毛利率從 38% 提到 70% 以上^[11]。營收漲了近四倍，毛利率從勉強為正提到健康水平，這不是泡沫的表現，是真有人在為它持續付錢。

這一小撮的存在，恰恰把前面那道學習鴻溝反襯得更清楚。同樣的模型擺在所有人面前，5% 的贏家和 95% 的失敗者，分野不在拿到的模型不同，在嵌進流程、組織隨之改造的能力不同。買方成功率 67%、自建三分之一^[2]，是同一條分界線在企業內部的投影。能力是公共品，編排是私有功夫——這才是真正拉開差距的地方。

把多方的數字疊在一起，畫面反而清晰了：模型能力在漲，少數贏家在悶聲賺錢，而大多數項目死在組織沒跟上。這三件事並不矛盾，它們是同一個故事的三個切面。

答案的雛形，早就藏在 Klarna 裡

回到開頭那家瑞典公司。

Klarna 重新招人之後，沒有簡單地走回頭路。它搭起一套混合模式：AI 處理基礎和重複的詢問，人來接那些需要同理心、判斷或升級的邊緣案例，客服改成「Uber 式」的靈活遠程用工^[4]。這不是 AI 的撤退，也不是人的復辟，是一次重新編排——把人和 AI 各自該乾的部分，重新切了一刀。

這條混合線，差不多就是整道謎題的答案雛形。卡住企業的，從來不是「AI 能不能替代人」這個非此即彼的問題；是「組織該怎麼重新安排人與 AI 的分工」這個更難、更慢、更不性感的活。前者是模型的事，一年就能翻幾代；後者是人的事，是流程、是結構、是文化，得一寸一寸地重新長。

所以 2026 年這個「agent 元年」，最該被重新理解的不是 agent 強到了什麼程度，而是真正的壁壘早已悄悄換了位置——從模型的能力，挪到了組織把它裝進自己身體裡的功夫。回滾率、取消率高懸不下，量的不是機器跟沒跟上，是人跟沒跟上。

Klarna 用十八個月、約 700 個崗位和一次公開認錯，替整個行業先把這道題做錯了一遍。它留下的那套混合模式，比它當初省下的成本值錢得多。

AI agent 元年的反信號：回滾率，才是真正的體溫計

一邊唱多 2028，一邊警告 2027

放棄率從 17% 躥到 42%

排除法：不是模型，不是錢，也不全是假貨

真兇在組織，不在模型

整個行業在補的，是編排，不是模型

也有跑通的一小撮

答案的雛形，早就藏在 Klarna 裡

常見問題

參考來源

一邊唱多 2028，一邊警告 2027

放棄率從 17% 躥到 42%

排除法：不是模型，不是錢，也不全是假貨

真兇在組織，不在模型

整個行業在補的，是編排，不是模型

也有跑通的一小撮

答案的雛形，早就藏在 Klarna 裡

常見問題

參考來源

相關百科

相關每日新聞