AI评估平台：智能体框架对成功率影响是模型的7倍

Braintrust分析1781次运行发现，更换框架可使成功率从12%升至92%

AI评估平台Braintrust近期发布了一项大规模实证研究，从Hugging Face抓取了1781条智能体在生产环境中的完整运行轨迹，覆盖六款主流模型在六大类任务中的表现，并使用GPT-4o进行逐条评分。研究结果挑战了当前业界对模型能力的过度聚焦，揭示出智能体框架（harness）才是决定任务成功率的关键变量。

数据显示，在保持底层模型不变的情况下，仅更换包裹模型的智能体框架，成功率可以从12%直接跃升至92%，波动幅度超过80个百分点。回归分析进一步量化了这一影响：在控制基准测试和模型变量后，智能体框架能解释约5.3%的成功率差异，而模型仅能解释0.7%。这意味着，切换智能体框架对成功率的影响力是更换模型的7倍以上。更值得关注的是，框架切换几乎不带来额外成本——同一任务中不同框架的Token消耗基本相当。

研究测试了五种架构迥异的智能体框架。claude_code是Anthropic的原生Agent循环，允许模型以类XML格式自主管理工具调用和上下文。smolagents_code则让模型通过编写Python代码来串联操作。tool_calling采用标准的结构化JSON函数调用，一次执行一个工具。tool_calling_with_shortlisting在前者基础上每轮预筛选可用工具。openai_solo则是最薄的OpenAI封装。同模型、同任务下的对比结果令人震惊。在SWE-bench编程任务中，Claude配合claude_code成功率达到100%，换成tool_calling后骤降至14%。在AppWorld多应用编排任务中，Kimi配合smolagents_code达到92%，tool_calling下仅12%。GPT-4.1在电信客服任务中，smolagents_code下为51%，claude_code下仅剩18%。这些断崖式的成功率差异，均源于框架设计中看似微小的决策——是让模型自主管理上下文，还是用固定模板约束每一步；是允许模型写代码串联工具调用，还是只能逐次调用。

值得注意的是，tool_calling_with_shortlisting试图通过每轮缩小可用工具列表来提高效率，但数据表明这一设计反而拖累了表现。缩小选项可能切掉了有用工具，也可能引入了路由错误，说明“更精密的控制”并不自动等同于“更好的结果”。

在成本端，开源模型展现出显著优势。在SWE-bench编程基准上，开源模型与顶尖闭源模型处于同一成功率档位：DeepSeek V3.2达到96%，Kimi K2.5达到94%，Claude Opus 4.5为100%，GPT-5.2为93%，Gemini 3 Pro为87%。但真正的分水岭在于每次成功任务的成本。Braintrust按LiteLLM的实际Token费率定价，并用成功率折算每次成功成本。claude_code配合Kimi K2.5每次成功仅花费0.73美元，配合DeepSeek V3.2为1.27美元。闭源的Claude Opus需4.28美元，Gemini 3 Pro需4.97美元。在AppWorld任务上，差距进一步拉大：Kimi配合smolagents_code每次成功仅0.40美元，Claude配合claude_code高达84.33美元，相差超过200倍。开源模型还具备自托管优势，无需每次调用付费，也免受API涨价风险，为大规模部署提供了结构性的成本护城河。

研究还揭示了一个关键误区：Token单价最低不等于效率最高。GPT-4.1的Token账单在纸面上比其他模型便宜10到100倍，但其在SWE-bench和AppWorld等硬核任务上的失败率高达53%至90%。它之所以“便宜”，是因为“更快地失败了”。衡量效率的正确维度是每次成功成本，即单次任务成本除以成功率。这一指标完全重塑了配置排名。在编程类任务上，开源模型走到了成本效率的最前沿；在对话客服类任务上，GPT-4.1以每次成功0.02至0.03美元的成本大幅领先Claude的1.95美元。这意味着不存在一个通吃的“最便宜模型”，不同任务家族对应完全不同的成本最优解。

六个基准测试产生了四个不同的冠军。Claude赢下SWE-bench、BrowseComp+和TAU2零售/电信客服。Gemini在TAU2航空客服上以100%成功率夺冠。DeepSeek和Kimi在AppWorld多应用编排任务上大幅领先。甚至在同一智能体框架内，不同模型的表现也差距悬殊。AppWorld任务中，Claude在自家原生的claude_code下仅有26%成功率，远低于同框架下DeepSeek的80%和Kimi的78%。模型与任务的匹配度、以及与框架之间的协同效应，远比模型参数的绝对规模更能预测最终表现。此外，高平均成功率可能掩盖局部塌方，某些配置总体得分不错，但在特定任务类型上完全崩盘。

Braintrust还发现，Agent失败时的行为在编码任务和对话任务上方向完全相反。在SWE-bench和AppWorld等硬核编程任务中，失败伴随着“颠簸”——Agent比成功的同行发出更多LLM调用、消耗更多Token、运行更长时间，BrowseComp+的失败运行消耗Token是成功运行的2.3倍。而在TAU2客服对话类任务中，失败的Agent调用更少、Token更少、结束更快，直接自信地给出错误答案后收工。这两种截然相反的失败模式要求生产环境的监控策略必须差异化：编码任务需要Token用量的上限告警以止损，对话任务则需要下限告警以捕捉“流畅的错误交付”。

这组数据改写了AI创业公司的竞争规则。六个主流模型在编程任务上的成功率差距已收窄至个位数百分点，模型层商品化速度超出预期。继续围绕“接入哪个最新模型”构筑商业故事，护城河正在快速蒸发。真正拉开差距的，是为每类任务匹配最优智能体框架、按每次成功成本衡量效率、以及建立差异化的失败监控体系。这三项能力的核心指向同一组关键词：推理成本的精细管理和部署效率的系统优化。对于ToB的AI创业公司，产品定义的重心需要从“我们接入了哪个模型”转向“我们在什么任务场景、用什么成本结构、以什么成功率交付”。叙事不再是比模型，而是比成本、比效率、比工程。

AI评估平台：智能体框架对成功率影响是模型的7倍

延伸阅读

相关深度报道

相关每日新闻