英國AI安全研究所(AISI)的一項最新研究指出,當前通行的AI基準測試方法存在根本性缺陷——它們通過人為限制計算預算,系統性地低估了AI智能體真正具備的能力水平。這意味著,業界對前沿模型能力的認知可能一直停留在“最低表現”的層面,而非其潛力上限。
研究團隊在七個主流基準測試上對多款前沿模型進行了重新評估,核心變量是測試時計算量,即允許智能體在完成任務過程中消耗的令牌(token)數量。結果顯示,能力並非一個固定分數,而是一條隨算力預算增加而持續攀升的曲線。在軟件工程類任務上,當令牌預算從100萬提升至1000萬時,成功率躍升了約25%;在數學與學術類任務中,預算增至500萬令牌時,得分提升約22%。在網絡安全領域,約8%的任務只有在預算超過1000萬令牌時才被首次攻克,部分任務甚至需要5000萬令牌以上。
這一效應的分佈並不均勻。在醫療基準測試上,所有模型在標準預算內就已觸及能力平臺期,額外算力幾乎不帶來增益。AISI分析認為,算力加成效果在智能體能夠自我驗證工作的場景中最為顯著,例如運行代碼或測試漏洞利用;而在缺乏即時反饋或反饋延遲的任務中,作用則微乎其微。
研究還揭示了一個關鍵規律:人類專家完成某項任務所需的時間,與AI智能體解決該任務所需的令牌消耗量之間,遵循冪律關係。一項耗時一分鐘的任務,智能體需消耗數千令牌;一小時的任務則需數百萬令牌;而一項需一週的任務,令牌消耗可達數十億。這意味著,固定的評估預算實際上切斷了那些最長、最困難的任務,導致在這些任務上的失敗可能源於預算不足,而非智能體本身缺乏技能。AISI特別提及了一個名為“The Last Ones”的網絡安全任務,人類專家需耗時約20小時,而所有受測模型在令牌預算低於3000萬時均無法解決。
新一代模型從額外算力中獲益的程度遠超舊款。研究顯示,隨著代際更迭,能力曲線沿三個維度向上移動:可達性(更難的任務變得可解)、可靠性(同一任務被更穩定地解決)和效率(解決同一任務所需令牌減少)。以當前前沿模型為例,其可處理任務的時間範圍從250萬令牌預算下的約40分鐘,擴展至5000萬令牌預算下的約4小時。縱觀整個前沿,當預算從250萬躍升至5000萬令牌時,時間範圍從約2小時拉長至14小時。
這一發現對前沿進展的衡量標準提出了挑戰。AISI此前基於250萬令牌固定預算估算,前沿模型在網絡安全任務上的時間範圍約每4.7個月翻一番。但在5000萬令牌預算下,這一趨勢陡峭了約60%,翻倍週期縮短至40至50天。AISI強調,所謂的翻倍速率部分取決於所選擇的評估預算,而非前沿進展的固有屬性。不過,進展並非全面碾壓:在約10%至30%的任務上,新一代模型的表現反而遜於前代。
AISI的核心結論直指評估哲學層面:“如果我們繼續將能力視為一個固定分數,而非一條隨算力變化的曲線,那麼當這些系統被投入更多資源時,我們將一再被其實際表現所震驚。”隨著單位令牌成本的持續下降,更高的測試時預算將變得更加觸手可及,那些一度被認為昂貴到不切實際的能力,可能正加速走向經濟可行。這對AI部署決策、經濟價值評估以及風險管控框架的構建,都具有深遠影響。