英国AI安全研究所(AISI)的一项最新研究指出,当前通行的AI基准测试方法存在根本性缺陷——它们通过人为限制计算预算,系统性地低估了AI智能体真正具备的能力水平。这意味着,业界对前沿模型能力的认知可能一直停留在“最低表现”的层面,而非其潜力上限。

研究团队在七个主流基准测试上对多款前沿模型进行了重新评估,核心变量是测试时计算量,即允许智能体在完成任务过程中消耗的令牌(token)数量。结果显示,能力并非一个固定分数,而是一条随算力预算增加而持续攀升的曲线。在软件工程类任务上,当令牌预算从100万提升至1000万时,成功率跃升了约25%;在数学与学术类任务中,预算增至500万令牌时,得分提升约22%。在网络安全领域,约8%的任务只有在预算超过1000万令牌时才被首次攻克,部分任务甚至需要5000万令牌以上。

这一效应的分布并不均匀。在医疗基准测试上,所有模型在标准预算内就已触及能力平台期,额外算力几乎不带来增益。AISI分析认为,算力加成效果在智能体能够自我验证工作的场景中最为显著,例如运行代码或测试漏洞利用;而在缺乏即时反馈或反馈延迟的任务中,作用则微乎其微。

研究还揭示了一个关键规律:人类专家完成某项任务所需的时间,与AI智能体解决该任务所需的令牌消耗量之间,遵循幂律关系。一项耗时一分钟的任务,智能体需消耗数千令牌;一小时的任务则需数百万令牌;而一项需一周的任务,令牌消耗可达数十亿。这意味着,固定的评估预算实际上切断了那些最长、最困难的任务,导致在这些任务上的失败可能源于预算不足,而非智能体本身缺乏技能。AISI特别提及了一个名为“The Last Ones”的网络安全任务,人类专家需耗时约20小时,而所有受测模型在令牌预算低于3000万时均无法解决。

新一代模型从额外算力中获益的程度远超旧款。研究显示,随着代际更迭,能力曲线沿三个维度向上移动:可达性(更难的任务变得可解)、可靠性(同一任务被更稳定地解决)和效率(解决同一任务所需令牌减少)。以当前前沿模型为例,其可处理任务的时间范围从250万令牌预算下的约40分钟,扩展至5000万令牌预算下的约4小时。纵观整个前沿,当预算从250万跃升至5000万令牌时,时间范围从约2小时拉长至14小时

这一发现对前沿进展的衡量标准提出了挑战。AISI此前基于250万令牌固定预算估算,前沿模型在网络安全任务上的时间范围约每4.7个月翻一番。但在5000万令牌预算下,这一趋势陡峭了约60%,翻倍周期缩短至40至50天。AISI强调,所谓的翻倍速率部分取决于所选择的评估预算,而非前沿进展的固有属性。不过,进展并非全面碾压:在约10%至30%的任务上,新一代模型的表现反而逊于前代。

AISI的核心结论直指评估哲学层面:“如果我们继续将能力视为一个固定分数,而非一条随算力变化的曲线,那么当这些系统被投入更多资源时,我们将一再被其实际表现所震惊。”随着单位令牌成本的持续下降,更高的测试时预算将变得更加触手可及,那些一度被认为昂贵到不切实际的能力,可能正加速走向经济可行。这对AI部署决策、经济价值评估以及风险管控框架的构建,都具有深远影响。