AI评估平台Braintrust近期发布了一项大规模实证研究,从Hugging Face抓取了1781条智能体在生产环境中的完整运行轨迹,覆盖六款主流模型在六大类任务中的表现,并使用GPT-4o进行逐条评分。研究结果挑战了当前业界对模型能力的过度聚焦,揭示出智能体框架(harness)才是决定任务成功率的关键变量。
数据显示,在保持底层模型不变的情况下,仅更换包裹模型的智能体框架,成功率可以从12%直接跃升至92%,波动幅度超过80个百分点。回归分析进一步量化了这一影响:在控制基准测试和模型变量后,智能体框架能解释约5.3%的成功率差异,而模型仅能解释0.7%。这意味着,切换智能体框架对成功率的影响力是更换模型的7倍以上。更值得关注的是,框架切换几乎不带来额外成本——同一任务中不同框架的Token消耗基本相当。
研究测试了五种架构迥异的智能体框架。claude_code是Anthropic的原生Agent循环,允许模型以类XML格式自主管理工具调用和上下文。smolagents_code则让模型通过编写Python代码来串联操作。tool_calling采用标准的结构化JSON函数调用,一次执行一个工具。tool_calling_with_shortlisting在前者基础上每轮预筛选可用工具。openai_solo则是最薄的OpenAI封装。同模型、同任务下的对比结果令人震惊。在SWE-bench编程任务中,Claude配合claude_code成功率达到100%,换成tool_calling后骤降至14%。在AppWorld多应用编排任务中,Kimi配合smolagents_code达到92%,tool_calling下仅12%。GPT-4.1在电信客服任务中,smolagents_code下为51%,claude_code下仅剩18%。这些断崖式的成功率差异,均源于框架设计中看似微小的决策——是让模型自主管理上下文,还是用固定模板约束每一步;是允许模型写代码串联工具调用,还是只能逐次调用。
值得注意的是,tool_calling_with_shortlisting试图通过每轮缩小可用工具列表来提高效率,但数据表明这一设计反而拖累了表现。缩小选项可能切掉了有用工具,也可能引入了路由错误,说明“更精密的控制”并不自动等同于“更好的结果”。
在成本端,开源模型展现出显著优势。在SWE-bench编程基准上,开源模型与顶尖闭源模型处于同一成功率档位:DeepSeek V3.2达到96%,Kimi K2.5达到94%,Claude Opus 4.5为100%,GPT-5.2为93%,Gemini 3 Pro为87%。但真正的分水岭在于每次成功任务的成本。Braintrust按LiteLLM的实际Token费率定价,并用成功率折算每次成功成本。claude_code配合Kimi K2.5每次成功仅花费0.73美元,配合DeepSeek V3.2为1.27美元。闭源的Claude Opus需4.28美元,Gemini 3 Pro需4.97美元。在AppWorld任务上,差距进一步拉大:Kimi配合smolagents_code每次成功仅0.40美元,Claude配合claude_code高达84.33美元,相差超过200倍。开源模型还具备自托管优势,无需每次调用付费,也免受API涨价风险,为大规模部署提供了结构性的成本护城河。
研究还揭示了一个关键误区:Token单价最低不等于效率最高。GPT-4.1的Token账单在纸面上比其他模型便宜10到100倍,但其在SWE-bench和AppWorld等硬核任务上的失败率高达53%至90%。它之所以“便宜”,是因为“更快地失败了”。衡量效率的正确维度是每次成功成本,即单次任务成本除以成功率。这一指标完全重塑了配置排名。在编程类任务上,开源模型走到了成本效率的最前沿;在对话客服类任务上,GPT-4.1以每次成功0.02至0.03美元的成本大幅领先Claude的1.95美元。这意味着不存在一个通吃的“最便宜模型”,不同任务家族对应完全不同的成本最优解。
六个基准测试产生了四个不同的冠军。Claude赢下SWE-bench、BrowseComp+和TAU2零售/电信客服。Gemini在TAU2航空客服上以100%成功率夺冠。DeepSeek和Kimi在AppWorld多应用编排任务上大幅领先。甚至在同一智能体框架内,不同模型的表现也差距悬殊。AppWorld任务中,Claude在自家原生的claude_code下仅有26%成功率,远低于同框架下DeepSeek的80%和Kimi的78%。模型与任务的匹配度、以及与框架之间的协同效应,远比模型参数的绝对规模更能预测最终表现。此外,高平均成功率可能掩盖局部塌方,某些配置总体得分不错,但在特定任务类型上完全崩盘。
Braintrust还发现,Agent失败时的行为在编码任务和对话任务上方向完全相反。在SWE-bench和AppWorld等硬核编程任务中,失败伴随着“颠簸”——Agent比成功的同行发出更多LLM调用、消耗更多Token、运行更长时间,BrowseComp+的失败运行消耗Token是成功运行的2.3倍。而在TAU2客服对话类任务中,失败的Agent调用更少、Token更少、结束更快,直接自信地给出错误答案后收工。这两种截然相反的失败模式要求生产环境的监控策略必须差异化:编码任务需要Token用量的上限告警以止损,对话任务则需要下限告警以捕捉“流畅的错误交付”。
这组数据改写了AI创业公司的竞争规则。六个主流模型在编程任务上的成功率差距已收窄至个位数百分点,模型层商品化速度超出预期。继续围绕“接入哪个最新模型”构筑商业故事,护城河正在快速蒸发。真正拉开差距的,是为每类任务匹配最优智能体框架、按每次成功成本衡量效率、以及建立差异化的失败监控体系。这三项能力的核心指向同一组关键词:推理成本的精细管理和部署效率的系统优化。对于ToB的AI创业公司,产品定义的重心需要从“我们接入了哪个模型”转向“我们在什么任务场景、用什么成本结构、以什么成功率交付”。叙事不再是比模型,而是比成本、比效率、比工程。