英國AISI：標準基準測試系統性低估AI智能體真實能力

英國AI安全研究院研究發現，標準基準測試因限制計算預算而低估AI智能體能力，提高代幣預算後軟件工程任務成功率提升約25%。

英國AI安全研究所（AISI）的一項最新研究指出，當前通行的AI基準測試方法存在根本性缺陷——它們通過人為限制計算預算，系統性地低估了AI智能體真正具備的能力水平。這意味著，業界對前沿模型能力的認知可能一直停留在“最低表現”的層面，而非其潛力上限。

研究團隊在七個主流基準測試上對多款前沿模型進行了重新評估，核心變量是測試時計算量，即允許智能體在完成任務過程中消耗的令牌（token）數量。結果顯示，能力並非一個固定分數，而是一條隨算力預算增加而持續攀升的曲線。在軟件工程類任務上，當令牌預算從100萬提升至1000萬時，成功率躍升了約25%；在數學與學術類任務中，預算增至500萬令牌時，得分提升約22%。在網絡安全領域，約8%的任務只有在預算超過1000萬令牌時才被首次攻克，部分任務甚至需要5000萬令牌以上。

這一效應的分佈並不均勻。在醫療基準測試上，所有模型在標準預算內就已觸及能力平臺期，額外算力幾乎不帶來增益。AISI分析認為，算力加成效果在智能體能夠自我驗證工作的場景中最為顯著，例如運行代碼或測試漏洞利用；而在缺乏即時反饋或反饋延遲的任務中，作用則微乎其微。

研究還揭示了一個關鍵規律：人類專家完成某項任務所需的時間，與AI智能體解決該任務所需的令牌消耗量之間，遵循冪律關係。一項耗時一分鐘的任務，智能體需消耗數千令牌；一小時的任務則需數百萬令牌；而一項需一週的任務，令牌消耗可達數十億。這意味著，固定的評估預算實際上切斷了那些最長、最困難的任務，導致在這些任務上的失敗可能源於預算不足，而非智能體本身缺乏技能。AISI特別提及了一個名為“The Last Ones”的網絡安全任務，人類專家需耗時約20小時，而所有受測模型在令牌預算低於3000萬時均無法解決。

新一代模型從額外算力中獲益的程度遠超舊款。研究顯示，隨著代際更迭，能力曲線沿三個維度向上移動：可達性（更難的任務變得可解）、可靠性（同一任務被更穩定地解決）和效率（解決同一任務所需令牌減少）。以當前前沿模型為例，其可處理任務的時間範圍從250萬令牌預算下的約40分鐘，擴展至5000萬令牌預算下的約4小時。縱觀整個前沿，當預算從250萬躍升至5000萬令牌時，時間範圍從約2小時拉長至14小時。

這一發現對前沿進展的衡量標準提出了挑戰。AISI此前基於250萬令牌固定預算估算，前沿模型在網絡安全任務上的時間範圍約每4.7個月翻一番。但在5000萬令牌預算下，這一趨勢陡峭了約60%，翻倍週期縮短至40至50天。AISI強調，所謂的翻倍速率部分取決於所選擇的評估預算，而非前沿進展的固有屬性。不過，進展並非全面碾壓：在約10%至30%的任務上，新一代模型的表現反而遜於前代。

AISI的核心結論直指評估哲學層面：“如果我們繼續將能力視為一個固定分數，而非一條隨算力變化的曲線，那麼當這些系統被投入更多資源時，我們將一再被其實際表現所震驚。”隨著單位令牌成本的持續下降，更高的測試時預算將變得更加觸手可及，那些一度被認為昂貴到不切實際的能力，可能正加速走向經濟可行。這對AI部署決策、經濟價值評估以及風險管控框架的構建，都具有深遠影響。

英國AISI：標準基準測試系統性低估AI智能體真實能力

延伸閱讀

相關深度報道

相關每日新聞