英国AISI：标准基准测试系统性低估AI智能体真实能力

英国AI安全研究院研究发现，标准基准测试因限制计算预算而低估AI智能体能力，提高代币预算后软件工程任务成功率提升约25%。

英国AI安全研究所（AISI）的一项最新研究指出，当前通行的AI基准测试方法存在根本性缺陷——它们通过人为限制计算预算，系统性地低估了AI智能体真正具备的能力水平。这意味着，业界对前沿模型能力的认知可能一直停留在“最低表现”的层面，而非其潜力上限。

研究团队在七个主流基准测试上对多款前沿模型进行了重新评估，核心变量是测试时计算量，即允许智能体在完成任务过程中消耗的令牌（token）数量。结果显示，能力并非一个固定分数，而是一条随算力预算增加而持续攀升的曲线。在软件工程类任务上，当令牌预算从100万提升至1000万时，成功率跃升了约25%；在数学与学术类任务中，预算增至500万令牌时，得分提升约22%。在网络安全领域，约8%的任务只有在预算超过1000万令牌时才被首次攻克，部分任务甚至需要5000万令牌以上。

这一效应的分布并不均匀。在医疗基准测试上，所有模型在标准预算内就已触及能力平台期，额外算力几乎不带来增益。AISI分析认为，算力加成效果在智能体能够自我验证工作的场景中最为显著，例如运行代码或测试漏洞利用；而在缺乏即时反馈或反馈延迟的任务中，作用则微乎其微。

研究还揭示了一个关键规律：人类专家完成某项任务所需的时间，与AI智能体解决该任务所需的令牌消耗量之间，遵循幂律关系。一项耗时一分钟的任务，智能体需消耗数千令牌；一小时的任务则需数百万令牌；而一项需一周的任务，令牌消耗可达数十亿。这意味着，固定的评估预算实际上切断了那些最长、最困难的任务，导致在这些任务上的失败可能源于预算不足，而非智能体本身缺乏技能。AISI特别提及了一个名为“The Last Ones”的网络安全任务，人类专家需耗时约20小时，而所有受测模型在令牌预算低于3000万时均无法解决。

新一代模型从额外算力中获益的程度远超旧款。研究显示，随着代际更迭，能力曲线沿三个维度向上移动：可达性（更难的任务变得可解）、可靠性（同一任务被更稳定地解决）和效率（解决同一任务所需令牌减少）。以当前前沿模型为例，其可处理任务的时间范围从250万令牌预算下的约40分钟，扩展至5000万令牌预算下的约4小时。纵观整个前沿，当预算从250万跃升至5000万令牌时，时间范围从约2小时拉长至14小时。

这一发现对前沿进展的衡量标准提出了挑战。AISI此前基于250万令牌固定预算估算，前沿模型在网络安全任务上的时间范围约每4.7个月翻一番。但在5000万令牌预算下，这一趋势陡峭了约60%，翻倍周期缩短至40至50天。AISI强调，所谓的翻倍速率部分取决于所选择的评估预算，而非前沿进展的固有属性。不过，进展并非全面碾压：在约10%至30%的任务上，新一代模型的表现反而逊于前代。

AISI的核心结论直指评估哲学层面：“如果我们继续将能力视为一个固定分数，而非一条随算力变化的曲线，那么当这些系统被投入更多资源时，我们将一再被其实际表现所震惊。”随着单位令牌成本的持续下降，更高的测试时预算将变得更加触手可及，那些一度被认为昂贵到不切实际的能力，可能正加速走向经济可行。这对AI部署决策、经济价值评估以及风险管控框架的构建，都具有深远影响。

英国AISI：标准基准测试系统性低估AI智能体真实能力

延伸阅读

相关深度报道

相关每日新闻