2024 年某个时点,瑞典支付公司 Klarna 做了一件被整个行业当作样板的事:它裁掉约 700 个客服与支持岗位,换上一个与 OpenAI 合作开发的 AI 助手。高峰期,Klarna 对外宣称这个助手处理了约三分之二到四分之三的客户交互,相当于 700 名全职客服的工作量。创始人兼 CEO Sebastian Siemiatkowski 四处站台,把它讲成 AI 重写一家公司成本结构的活教材。

十八个月后,Klarna 在悄悄招人。客户满意度掉下来之后,它重新把人请了回来,CEO 公开认错,说自己太看重效率和成本,结果是质量下降,这条路走不通[4]

把这件事放在 2026 年的背景里,它就更刺眼了。这一年被反复叫作「agent 元年」:模型够强了,钱砸下去了,部署率创了新高。可与此同时,另一组数字在往相反的方向走——放弃率、取消率、回滚率,全在飙升。两条曲线同时冲顶,本身就是个谜面。

一边唱多 2028,一边警告 2027

先把乐观的那一面摆全,因为它是真的。

2026 年 6 月 24 日的英伟达年度股东会上,黄仁勋宣布「有用的 AI」时代已经到来,称 AI agent 将成为未来数十年驱动算力需求的核心引擎[7][8]。他给的论据很具体:全球开发者合并的代码请求,2024 年是 4 亿次,2025 年 5 亿次,到 2026 年头几个月已经接近翻了三倍[7]。他还把账算到更大的尺度上:全球约 3000 万软件开发者,年薪酬合计约 3 万亿美元,他们的工作又托着约 100 万亿美元的经济活动;如今 agent 正在放大这群人的产出,被放大出来的部分已接近 9 万亿美元,比一年前多出约 6 万亿[7]。数字大得有些抽象,方向却很清楚——在他口中,AI 不再是成本,是杠杆。当 AI 能干活,token 就有了价值;token 一旦产生利润,对算力的需求就会加速。这是卖铲子的人能讲的最干净的故事。

研究机构这边也在添柴。Gartner 预测,到 2028 年,15% 的日常工作决策将由 agentic AI 自主做出,而 2024 年这个数字是 0%;同样到 2028 年,33% 的企业软件应用将内置 agentic AI,2024 年这一比例还不到 1%[1]。从 0 到 15%、从不足 1% 到 33%,这是把 agent 写进了企业软件的默认配置。

热度不只在台上。Gartner 2025 年初对三千多名企业听众做过一次摸底:19% 说已经大举投资 agentic AI,42% 在保守试水,完全没碰的只有 8%,剩下的都在观望[1]。九成以上的企业要么已经下场、要么准备下场——这是一场没人想缺席的派对。

模型能力本身早就不是瓶颈。GPT-5.5 这一代模型在 SWE-bench Verified 这类真实软件工程基准上已经做到约 80% 的解决率——一个能把约八成真实代码缺陷修对的系统,再说「模型还不够强」就很难自圆其说。

奇怪的地方就在这里。能力到位、资本到位、机构看多到 2028 年,可同一家 Gartner,在同一份判断里,给出了另一个数字:超过 40% 的 agentic AI 项目,将在 2027 年底前被取消[1]。原因写得很直白——成本失控、商业价值算不清、风险控制不到位。

一边唱多 2028,一边警告 2027 先黄掉四成。这不是两家机构打架,是同一家机构在同一口气里说的。它知道一些别的东西。

放弃率从 17% 蹿到 42%

Klarna 不是孤例,它只是讲得最响的那个。把镜头拉远,会看到一整片正在收缩的战场。

S&P Global Market Intelligence 在 2025 年 10 月的调查里给出一个刺眼的同比变化:放弃「大部分」AI 项目的公司比例,从一年前的 17% 升到了 42%[3]。一年时间,比例翻了两倍多。更日常的损耗藏在另一个数字里——受访企业平均有 46% 的 AI 项目,在「概念验证」走到「规模化采用」之间被砍掉[3]。每两个进了试点的项目,差不多就有一个走不出试点。

满意度也在全线回落。S&P 那份调查里,认为生成式 AI 投资带来正面影响的比例,在每一个目标维度上都比一年前低了:营收增长从 81% 降到 76%,成本管理从 79% 降到 74%,风险管理从 74% 降到 70%[3]。没有哪一项崩盘,但每一项都在往下渗。

最重的一锤来自 MIT。NANDA 项目 2025 年 8 月发布的《The GenAI Divide》报告,做法是 150 场高管访谈、350 名员工调查,外加 300 个公开部署案例的分析。结论是:95% 的企业生成式 AI 试点,对损益表没有任何可衡量的回报;真正实现快速营收增长的,只有约 5%[2]

这 95% 不是「还没赚钱」,是连一条能写进财报的影响线都画不出来。而企业为这件事已经投进去 300 到 400 亿美元[2]

同一份报告里还藏着一个更扎心的错配:超过一半的生成式 AI 预算,砸在了销售和营销工具上;可真正跑出回报的,却是没人愿意上台讲的后台自动化——砍掉外包、压低代理机构费用、把繁琐流程理顺这些不起眼的活[2]。钱系统性地投错了方向,本身就是一种症状:很多公司根本没想清楚要让 AI 替自己干什么,只是因为别人都在买,自己也得买一个。

钱花了,模型有了,部署铺开了,九成五打了水漂。谜面到这里算是完整了:模型越强、部署越广,落地反而越难。问题出在哪?

排除法:不是模型,不是钱,也不全是假货

侦探的活,是先把看上去显然的嫌疑人一个个排除掉。

第一个嫌疑人:模型能力不够。 不成立。SWE-bench Verified 约 80% 的解决率、黄仁勋摆出的代码合并量三倍增长[7]、Gartner 看到 2028 年的渗透曲线,都指向同一件事——能力这一头是过关的。如果是模型不行,回报应该随模型变强而上升,而不是在 GPT-5.5 这一代反而看到放弃率翻倍。能力和落地这两条线,已经脱钩了。

第二个嫌疑人:没舍得花钱。 也不成立。300 到 400 亿美元不是试水的量级[2]。S&P 调查里 42% 的公司是「放弃」,不是「没启动」——它们是先投了,跑了一阵,再撤的[3]。撤退本身就证明前面真金白银地投过。钱不是没到位,是投进去没冒出水花。

第三个嫌疑人:买到了假货,也就是「agent washing」。 这个有点料。Gartner 估计,数千家对外号称做 agentic AI 的厂商里,真正名副其实的只有约 130 家[1]。市场上绝大多数挂着「智能体」招牌的产品,拆开看不过是套了层壳的聊天机器人或老式自动化流程。买了假货跑不通,天经地义。

但 agent washing 只能解释一层,解释不了全部。如果失败全是因为买错了东西,那自建团队——绕过厂商、自己写——理应做得更好。事实正相反。MIT 的数据是一记反手:买厂商方案、建立外部伙伴关系的成功率约 67%,而企业自建的成功率,只有其约三分之一[2]。自己动手的人,掉得更惨。

三个显而易见的解释都按下去了。模型够强,钱够多,假货只是一层皮。真正的凶手,藏在一个所有人都看得见、却没盯着看的地方。

真凶在组织,不在模型

MIT 给那道横在 95% 和 5% 之间的裂缝起了个名字:learning gap,学习鸿沟[2]

它指的不是模型学得快不快,而是企业把 AI 接进自己的工作流程、组织结构和文化的那份能力。是「人」这一环——把一个能干活的系统,真正嵌进一家公司每天怎么运转里去。模型是现成的,难的是组织得围着它重新长一遍。

「买 67%、自建三分之一」这组对比,正是这个结论的硬证据。它表面上像是在说「别自己造、去采购」,往深一层看,它说的是另一回事:赢家不是技术最强的那群,而是最懂怎么把 AI 缝进既有业务流程的那群。买厂商方案,买的往往不只是一个模型,而是一套已经替别人趟过流程、踩过坑的嵌入方法。自建团队常常困在能跑通 demo、却接不进真实流程的那道坎上——模型在沙盒里表现优异,一拉进满是例外、审批、合规和老系统的真实环境,就散架了。

Klarna 的反转,按这个框架重看,意味就变了。它不是「AI 客服不行」,而是组织把人撤得太狠、太早,没给那些 AI 接不住的边缘案例——需要同理心、需要判断、需要升级处理的——留下接手的人[4]。质量塌方塌在 AI 与人的分工没编排好,不塌在模型答得对不对。

澳洲联邦银行(Commonwealth Bank of Australia)的案子,把这层道理摆得更赤裸。2025 年 8 月,这家银行宣布用一个 AI 语音机器人替换客服直连部门的 45 个岗位,理由是语音机器人能把通话量每周压下约 2000 通。结果装上去之后,通话量不降反升,管理层不得不安排加班、让团队主管亲自去接电话[5]。到 8 月 21 日,银行撤回了裁员决定,原话承认:「CBA 最初判定客服直连部门这 45 个岗位不再需要,没有充分考虑所有相关业务因素,这一错误意味着这些岗位并非冗余。」[5][6]

把这两件事并排放,规律就出来了:栽跟头的不是模型答得准不准,是企业误判了一项工作能不能被整段切掉、AI 接管之后那些接不住的部分由谁来兜。这是组织设计的失误,被错记到了技术账上。

还有一层,藏在 agent 这个词本身里。聊天机器人答错了,顶多是一句不靠谱的回复;agent 是会动手的——它下单、改数据、发邮件、调用系统。一旦放它进真实流程,权限给到哪、出了错谁来兜、每一步留不留得下可审计的痕迹,全都变成必须当场回答的问题。Gartner 把「风险控制不到位」和成本失控、价值算不清并列为项目夭折的三大主因,说的正是这件事[1]。模型再聪明,也替不了一家公司去想清楚「我敢让它碰到哪一步」。

整个行业在补的,是编排,不是模型

如果真凶在组织、在编排、在治理这一层,那么最该信的,是看产业里手握资源的玩家把下一笔钱砸向哪。砸向模型,说明大家还认为是能力问题;砸向「怎么把模型管起来、嵌进去」,说明行业自己已经认定瓶颈换了位置。

证据很一致,都指向后者。

英伟达推出了一套叫 Secure Agent Workspace 的参考设计,随 Claude 在 Azure GB300 上线一起放出。它不是一个更强的模型,而是一张在受控环境里运行自主代理的蓝图,把身份、网络访问、凭证、运行时策略这些控制项做成基础设施级的管控[9]。说白了,是在回答「怎么让 agent 在企业里跑得安全、可审计、可收口」,而不是「怎么让 agent 更聪明」。

AWS 走的是另一条路,落点一样。它用自研芯片 Trainium 压成本,用 Bedrock 承接模型生态,再把一整套 Agentic AI 工具链做出来,专门负责把模型嵌进企业的工作流程;AWS 高管把这一刻称作「Agentic AI 爆发的拐点」[10]。这套打法里最值钱的不是模型——模型在 Bedrock 上是可替换的货架商品——而是那层把模型接进业务的编排工具。

这些工具听起来都不性感,却恰好对着失败的病灶。一个 agent 要在企业里活下来,要的不只是答得对,而是一整套配套:它能碰哪些系统、动作前要不要人批、越界了怎么被拦下、事后能不能复盘追责。把这些缝好,比再训练一个更强的模型难得多、也慢得多——因为要改的不是代码,是一家公司既有的权责划分和办事流程。

这就是新的卡位战。云厂商不再单纯比谁的模型分数高,开始比谁的安全、治理、编排做得更顺手。这也是行业自己的判断:当前企业级 AI 部署,正卡在工作流整合、治理与组织采纳这几道关口上[12]。整个产业不约而同地在补同一块短板,而这块短板,恰恰不在模型那一头。

于是回滚率、取消率这两个一直被当作噪音的数字,其实是这套体系最灵敏的体温计。它们量的从来不是 AI 行不行,量的是组织有没有跟上。模型分数会骗人——它在沙盒里好看;放弃率不会,它记录的是真实世界里一个项目最终有没有活下来。

也有跑通的一小撮

把这篇写成一边倒的唱衰,就读错了。同一时间,确实有一小撮把 agent 真正跑进了流程,而且跑得很赚钱。

SemiAnalysis 把 2025 年 12 月视为 AI 商业化真正的拐点——agent 从那时起开始稳定地跑进企业流程。一个被反复引用的样本是 Anthropic:年化营收从约 90 亿美元蹿到约 440 亿美元,推理毛利率从 38% 提到 70% 以上[11]。营收涨了近四倍,毛利率从勉强为正提到健康水平,这不是泡沫的表现,是真有人在为它持续付钱。

这一小撮的存在,恰恰把前面那道学习鸿沟反衬得更清楚。同样的模型摆在所有人面前,5% 的赢家和 95% 的失败者,分野不在拿到的模型不同,在嵌进流程、组织随之改造的能力不同。买方成功率 67%、自建三分之一[2],是同一条分界线在企业内部的投影。能力是公共品,编排是私有功夫——这才是真正拉开差距的地方。

把多方的数字叠在一起,画面反而清晰了:模型能力在涨,少数赢家在闷声赚钱,而大多数项目死在组织没跟上。这三件事并不矛盾,它们是同一个故事的三个切面。

答案的雏形,早就藏在 Klarna 里

回到开头那家瑞典公司。

Klarna 重新招人之后,没有简单地走回头路。它搭起一套混合模式:AI 处理基础和重复的询问,人来接那些需要同理心、判断或升级的边缘案例,客服改成「Uber 式」的灵活远程用工[4]。这不是 AI 的撤退,也不是人的复辟,是一次重新编排——把人和 AI 各自该干的部分,重新切了一刀。

这条混合线,差不多就是整道谜题的答案雏形。卡住企业的,从来不是「AI 能不能替代人」这个非此即彼的问题;是「组织该怎么重新安排人与 AI 的分工」这个更难、更慢、更不性感的活。前者是模型的事,一年就能翻几代;后者是人的事,是流程、是结构、是文化,得一寸一寸地重新长。

所以 2026 年这个「agent 元年」,最该被重新理解的不是 agent 强到了什么程度,而是真正的壁垒早已悄悄换了位置——从模型的能力,挪到了组织把它装进自己身体里的功夫。回滚率、取消率高悬不下,量的不是机器跟没跟上,是人跟没跟上。

Klarna 用十八个月、约 700 个岗位和一次公开认错,替整个行业先把这道题做错了一遍。它留下的那套混合模式,比它当初省下的成本值钱得多。