2026 年明明是 AI agent 元年，为什么企业落地反而更难了？

模型能力早已够用，卡住的是组织这一环。MIT NANDA 报告把根因归为『learning gap』——企业把 AI 接进工作流、组织结构与文化的能力没跟上。S&P 数据显示，平均有 46% 的项目在概念验证到规模化之间被砍掉。难的不是技术，是组织没跟上。

什么是『agent washing』？它能解释这波放弃潮吗？

agent washing 指厂商把普通自动化或聊天机器人包装成『agentic AI』来卖。Gartner 估计数千家号称做 agentic 的厂商里只有约 130 家是真的。它能解释一部分『买了假货』的失败，但只是一层，并非全部——自建团队的失败率反而更高。

企业自建 AI 系统和买厂商方案，哪个成功率更高？

据 MIT NANDA 报告，买厂商方案、建立外部伙伴关系的成功率约 67%，自建的成功率只有其约三分之一。赢家是会把 AI 嵌进业务流程的，不是会自己调模型的。

Klarna 用 AI 替代客服后来怎么样了？

Klarna 在 2022 至 2024 年裁掉约 700 个客服岗，换上与 OpenAI 合作开发的助手，高峰期称 AI 处理了约三分之二到四分之三的客户交互。2025 年中客户满意度下滑后，Klarna 重新招聘人类客服，转向 AI 处理重复询问、人接复杂与升级案例的混合模式。

既然这么多项目失败，是不是说明 AI agent 不行？

不能这么读。同期也有跑通的一小撮：据 SemiAnalysis，Anthropic 年化营收从约 90 亿美元升到约 440 亿美元，推理毛利率从 38% 升到 70% 以上。回滚率高，量的不是 AI 行不行，是组织有没有把它嵌进流程。

AI agent 元年的反信号：回滚率，才是真正的体温计 · 深度报道

2024 年某个时点，瑞典支付公司 Klarna 做了一件被整个行业当作样板的事：它裁掉约 700 个客服与支持岗位，换上一个与 OpenAI 合作开发的 AI 助手。高峰期，Klarna 对外宣称这个助手处理了约三分之二到四分之三的客户交互，相当于 700 名全职客服的工作量。创始人兼 CEO Sebastian Siemiatkowski 四处站台，把它讲成 AI 重写一家公司成本结构的活教材。

十八个月后，Klarna 在悄悄招人。客户满意度掉下来之后，它重新把人请了回来，CEO 公开认错，说自己太看重效率和成本，结果是质量下降，这条路走不通^[4]。

把这件事放在 2026 年的背景里，它就更刺眼了。这一年被反复叫作「agent 元年」：模型够强了，钱砸下去了，部署率创了新高。可与此同时，另一组数字在往相反的方向走——放弃率、取消率、回滚率，全在飙升。两条曲线同时冲顶，本身就是个谜面。

一边唱多 2028，一边警告 2027

先把乐观的那一面摆全，因为它是真的。

2026 年 6 月 24 日的英伟达年度股东会上，黄仁勋宣布「有用的 AI」时代已经到来，称 AI agent 将成为未来数十年驱动算力需求的核心引擎^[7]^[8]。他给的论据很具体：全球开发者合并的代码请求，2024 年是 4 亿次，2025 年 5 亿次，到 2026 年头几个月已经接近翻了三倍^[7]。他还把账算到更大的尺度上：全球约 3000 万软件开发者，年薪酬合计约 3 万亿美元，他们的工作又托着约 100 万亿美元的经济活动；如今 agent 正在放大这群人的产出，被放大出来的部分已接近 9 万亿美元，比一年前多出约 6 万亿^[7]。数字大得有些抽象，方向却很清楚——在他口中，AI 不再是成本，是杠杆。当 AI 能干活，token 就有了价值；token 一旦产生利润，对算力的需求就会加速。这是卖铲子的人能讲的最干净的故事。

研究机构这边也在添柴。Gartner 预测，到 2028 年，15% 的日常工作决策将由 agentic AI 自主做出，而 2024 年这个数字是 0%；同样到 2028 年，33% 的企业软件应用将内置 agentic AI，2024 年这一比例还不到 1%^[1]。从 0 到 15%、从不足 1% 到 33%，这是把 agent 写进了企业软件的默认配置。

热度不只在台上。Gartner 2025 年初对三千多名企业听众做过一次摸底：19% 说已经大举投资 agentic AI，42% 在保守试水，完全没碰的只有 8%，剩下的都在观望^[1]。九成以上的企业要么已经下场、要么准备下场——这是一场没人想缺席的派对。

模型能力本身早就不是瓶颈。GPT-5.5 这一代模型在 SWE-bench Verified 这类真实软件工程基准上已经做到约 80% 的解决率——一个能把约八成真实代码缺陷修对的系统，再说「模型还不够强」就很难自圆其说。

奇怪的地方就在这里。能力到位、资本到位、机构看多到 2028 年，可同一家 Gartner，在同一份判断里，给出了另一个数字：超过 40% 的 agentic AI 项目，将在 2027 年底前被取消^[1]。原因写得很直白——成本失控、商业价值算不清、风险控制不到位。

一边唱多 2028，一边警告 2027 先黄掉四成。这不是两家机构打架，是同一家机构在同一口气里说的。它知道一些别的东西。

放弃率从 17% 蹿到 42%

Klarna 不是孤例，它只是讲得最响的那个。把镜头拉远，会看到一整片正在收缩的战场。

S&P Global Market Intelligence 在 2025 年 10 月的调查里给出一个刺眼的同比变化：放弃「大部分」AI 项目的公司比例，从一年前的 17% 升到了 42%^[3]。一年时间，比例翻了两倍多。更日常的损耗藏在另一个数字里——受访企业平均有 46% 的 AI 项目，在「概念验证」走到「规模化采用」之间被砍掉^[3]。每两个进了试点的项目，差不多就有一个走不出试点。

满意度也在全线回落。S&P 那份调查里，认为生成式 AI 投资带来正面影响的比例，在每一个目标维度上都比一年前低了：营收增长从 81% 降到 76%，成本管理从 79% 降到 74%，风险管理从 74% 降到 70%^[3]。没有哪一项崩盘，但每一项都在往下渗。

最重的一锤来自 MIT。NANDA 项目 2025 年 8 月发布的《The GenAI Divide》报告，做法是 150 场高管访谈、350 名员工调查，外加 300 个公开部署案例的分析。结论是：95% 的企业生成式 AI 试点，对损益表没有任何可衡量的回报；真正实现快速营收增长的，只有约 5%^[2]。

这 95% 不是「还没赚钱」，是连一条能写进财报的影响线都画不出来。而企业为这件事已经投进去 300 到 400 亿美元^[2]。

同一份报告里还藏着一个更扎心的错配：超过一半的生成式 AI 预算，砸在了销售和营销工具上；可真正跑出回报的，却是没人愿意上台讲的后台自动化——砍掉外包、压低代理机构费用、把繁琐流程理顺这些不起眼的活^[2]。钱系统性地投错了方向，本身就是一种症状：很多公司根本没想清楚要让 AI 替自己干什么，只是因为别人都在买，自己也得买一个。

钱花了，模型有了，部署铺开了，九成五打了水漂。谜面到这里算是完整了：模型越强、部署越广，落地反而越难。问题出在哪？

排除法：不是模型，不是钱，也不全是假货

侦探的活，是先把看上去显然的嫌疑人一个个排除掉。

第一个嫌疑人：模型能力不够。 不成立。SWE-bench Verified 约 80% 的解决率、黄仁勋摆出的代码合并量三倍增长^[7]、Gartner 看到 2028 年的渗透曲线，都指向同一件事——能力这一头是过关的。如果是模型不行，回报应该随模型变强而上升，而不是在 GPT-5.5 这一代反而看到放弃率翻倍。能力和落地这两条线，已经脱钩了。

第二个嫌疑人：没舍得花钱。 也不成立。300 到 400 亿美元不是试水的量级^[2]。S&P 调查里 42% 的公司是「放弃」，不是「没启动」——它们是先投了，跑了一阵，再撤的^[3]。撤退本身就证明前面真金白银地投过。钱不是没到位，是投进去没冒出水花。

第三个嫌疑人：买到了假货，也就是「agent washing」。 这个有点料。Gartner 估计，数千家对外号称做 agentic AI 的厂商里，真正名副其实的只有约 130 家^[1]。市场上绝大多数挂着「智能体」招牌的产品，拆开看不过是套了层壳的聊天机器人或老式自动化流程。买了假货跑不通，天经地义。

但 agent washing 只能解释一层，解释不了全部。如果失败全是因为买错了东西，那自建团队——绕过厂商、自己写——理应做得更好。事实正相反。MIT 的数据是一记反手：买厂商方案、建立外部伙伴关系的成功率约 67%，而企业自建的成功率，只有其约三分之一^[2]。自己动手的人，掉得更惨。

三个显而易见的解释都按下去了。模型够强，钱够多，假货只是一层皮。真正的凶手，藏在一个所有人都看得见、却没盯着看的地方。

真凶在组织，不在模型

MIT 给那道横在 95% 和 5% 之间的裂缝起了个名字：learning gap，学习鸿沟^[2]。

它指的不是模型学得快不快，而是企业把 AI 接进自己的工作流程、组织结构和文化的那份能力。是「人」这一环——把一个能干活的系统，真正嵌进一家公司每天怎么运转里去。模型是现成的，难的是组织得围着它重新长一遍。

「买 67%、自建三分之一」这组对比，正是这个结论的硬证据。它表面上像是在说「别自己造、去采购」，往深一层看，它说的是另一回事：赢家不是技术最强的那群，而是最懂怎么把 AI 缝进既有业务流程的那群。买厂商方案，买的往往不只是一个模型，而是一套已经替别人趟过流程、踩过坑的嵌入方法。自建团队常常困在能跑通 demo、却接不进真实流程的那道坎上——模型在沙盒里表现优异，一拉进满是例外、审批、合规和老系统的真实环境，就散架了。

Klarna 的反转，按这个框架重看，意味就变了。它不是「AI 客服不行」，而是组织把人撤得太狠、太早，没给那些 AI 接不住的边缘案例——需要同理心、需要判断、需要升级处理的——留下接手的人^[4]。质量塌方塌在 AI 与人的分工没编排好，不塌在模型答得对不对。

澳洲联邦银行(Commonwealth Bank of Australia)的案子，把这层道理摆得更赤裸。2025 年 8 月，这家银行宣布用一个 AI 语音机器人替换客服直连部门的 45 个岗位，理由是语音机器人能把通话量每周压下约 2000 通。结果装上去之后，通话量不降反升，管理层不得不安排加班、让团队主管亲自去接电话^[5]。到 8 月 21 日，银行撤回了裁员决定，原话承认：「CBA 最初判定客服直连部门这 45 个岗位不再需要，没有充分考虑所有相关业务因素，这一错误意味着这些岗位并非冗余。」^[5]^[6]

把这两件事并排放，规律就出来了：栽跟头的不是模型答得准不准，是企业误判了一项工作能不能被整段切掉、AI 接管之后那些接不住的部分由谁来兜。这是组织设计的失误，被错记到了技术账上。

还有一层，藏在 agent 这个词本身里。聊天机器人答错了，顶多是一句不靠谱的回复；agent 是会动手的——它下单、改数据、发邮件、调用系统。一旦放它进真实流程，权限给到哪、出了错谁来兜、每一步留不留得下可审计的痕迹，全都变成必须当场回答的问题。Gartner 把「风险控制不到位」和成本失控、价值算不清并列为项目夭折的三大主因，说的正是这件事^[1]。模型再聪明，也替不了一家公司去想清楚「我敢让它碰到哪一步」。

整个行业在补的，是编排，不是模型

如果真凶在组织、在编排、在治理这一层，那么最该信的，是看产业里手握资源的玩家把下一笔钱砸向哪。砸向模型，说明大家还认为是能力问题；砸向「怎么把模型管起来、嵌进去」，说明行业自己已经认定瓶颈换了位置。

证据很一致，都指向后者。

英伟达推出了一套叫 Secure Agent Workspace 的参考设计，随 Claude 在 Azure GB300 上线一起放出。它不是一个更强的模型，而是一张在受控环境里运行自主代理的蓝图，把身份、网络访问、凭证、运行时策略这些控制项做成基础设施级的管控^[9]。说白了，是在回答「怎么让 agent 在企业里跑得安全、可审计、可收口」，而不是「怎么让 agent 更聪明」。

AWS 走的是另一条路，落点一样。它用自研芯片 Trainium 压成本，用 Bedrock 承接模型生态，再把一整套 Agentic AI 工具链做出来，专门负责把模型嵌进企业的工作流程；AWS 高管把这一刻称作「Agentic AI 爆发的拐点」^[10]。这套打法里最值钱的不是模型——模型在 Bedrock 上是可替换的货架商品——而是那层把模型接进业务的编排工具。

这些工具听起来都不性感，却恰好对着失败的病灶。一个 agent 要在企业里活下来，要的不只是答得对，而是一整套配套：它能碰哪些系统、动作前要不要人批、越界了怎么被拦下、事后能不能复盘追责。把这些缝好，比再训练一个更强的模型难得多、也慢得多——因为要改的不是代码，是一家公司既有的权责划分和办事流程。

这就是新的卡位战。云厂商不再单纯比谁的模型分数高，开始比谁的安全、治理、编排做得更顺手。这也是行业自己的判断：当前企业级 AI 部署，正卡在工作流整合、治理与组织采纳这几道关口上^[12]。整个产业不约而同地在补同一块短板，而这块短板，恰恰不在模型那一头。

于是回滚率、取消率这两个一直被当作噪音的数字，其实是这套体系最灵敏的体温计。它们量的从来不是 AI 行不行，量的是组织有没有跟上。模型分数会骗人——它在沙盒里好看；放弃率不会，它记录的是真实世界里一个项目最终有没有活下来。

也有跑通的一小撮

把这篇写成一边倒的唱衰，就读错了。同一时间，确实有一小撮把 agent 真正跑进了流程，而且跑得很赚钱。

SemiAnalysis 把 2025 年 12 月视为 AI 商业化真正的拐点——agent 从那时起开始稳定地跑进企业流程。一个被反复引用的样本是 Anthropic：年化营收从约 90 亿美元蹿到约 440 亿美元，推理毛利率从 38% 提到 70% 以上^[11]。营收涨了近四倍，毛利率从勉强为正提到健康水平，这不是泡沫的表现，是真有人在为它持续付钱。

这一小撮的存在，恰恰把前面那道学习鸿沟反衬得更清楚。同样的模型摆在所有人面前，5% 的赢家和 95% 的失败者，分野不在拿到的模型不同，在嵌进流程、组织随之改造的能力不同。买方成功率 67%、自建三分之一^[2]，是同一条分界线在企业内部的投影。能力是公共品，编排是私有功夫——这才是真正拉开差距的地方。

把多方的数字叠在一起，画面反而清晰了：模型能力在涨，少数赢家在闷声赚钱，而大多数项目死在组织没跟上。这三件事并不矛盾，它们是同一个故事的三个切面。

答案的雏形，早就藏在 Klarna 里

回到开头那家瑞典公司。

Klarna 重新招人之后，没有简单地走回头路。它搭起一套混合模式：AI 处理基础和重复的询问，人来接那些需要同理心、判断或升级的边缘案例，客服改成「Uber 式」的灵活远程用工^[4]。这不是 AI 的撤退，也不是人的复辟，是一次重新编排——把人和 AI 各自该干的部分，重新切了一刀。

这条混合线，差不多就是整道谜题的答案雏形。卡住企业的，从来不是「AI 能不能替代人」这个非此即彼的问题；是「组织该怎么重新安排人与 AI 的分工」这个更难、更慢、更不性感的活。前者是模型的事，一年就能翻几代；后者是人的事，是流程、是结构、是文化，得一寸一寸地重新长。

所以 2026 年这个「agent 元年」，最该被重新理解的不是 agent 强到了什么程度，而是真正的壁垒早已悄悄换了位置——从模型的能力，挪到了组织把它装进自己身体里的功夫。回滚率、取消率高悬不下，量的不是机器跟没跟上，是人跟没跟上。

Klarna 用十八个月、约 700 个岗位和一次公开认错，替整个行业先把这道题做错了一遍。它留下的那套混合模式，比它当初省下的成本值钱得多。

AI agent 元年的反信号：回滚率，才是真正的体温计

一边唱多 2028，一边警告 2027

放弃率从 17% 蹿到 42%

排除法：不是模型，不是钱，也不全是假货

真凶在组织，不在模型

整个行业在补的，是编排，不是模型

也有跑通的一小撮

答案的雏形，早就藏在 Klarna 里

常见问题

参考来源

一边唱多 2028，一边警告 2027

放弃率从 17% 蹿到 42%

排除法：不是模型，不是钱，也不全是假货

真凶在组织，不在模型

整个行业在补的，是编排，不是模型

也有跑通的一小撮

答案的雏形，早就藏在 Klarna 里

常见问题

参考来源

相关百科

相关每日新闻