AI代理在真實付費工作場景中的能力正在快速攀升。根據Remote Labor Index(RLI)的最新評估結果,當前表現最佳的AI代理已能按專業質量標準完成16.1%的自由職業項目,而在八個月前該基準首次發佈時,這一數字僅為2.5%

RLI由AI安全中心(CAIS)Scale Labs聯合開發,專門衡量AI代理完成真實、有商業價值的自由職業任務的能力。其評估範圍涵蓋3D與CAD、建築、平面設計、視頻與動畫、音頻、數據分析以及網頁應用等多個領域,共包含240個項目,總價值達14.4萬美元,項目需求均來自358名經過驗證的自由職業者。每項成果由人工評估員對照付費專業人士制定的黃金標準進行打分,核心指標為“自動化率”——即AI產出被評為至少與人類同等水平的項目佔比。

在最新一輪測試中,Fable 5模型以16.1%的自動化率拔得頭籌,這一成績約為第二名Opus 4.8(8.3%)的兩倍,GPT-5.5則以6.3%位列第三。這三款模型均超越了此前所有被測系統,此前紀錄保持者為運行在Claude Cowork框架上的Opus 4.6,自動化率僅4.17%。研究作者指出,在不到八個月的時間裡,AI代理的能力前沿已增長逾四倍。

需要說明的是,Fable 5的評估存在一個限制:在240個項目中,僅有218個美國政府限制該模型訪問前完成了評估。但即便在最壞情況下——假設Fable 5在所有未完成項目上均告失敗——其自動化率仍可達14.6%,依然高於其他任何模型。

值得注意的是,模型發佈時間與自動化能力之間並非線性對應。在Scale Labs的完整排行榜上,較新的Gemini 3 Pro自動化率僅1.25%,排名接近墊底,落後於許多更早發佈的系統。這表明,通用能力的提升並不自動轉化為特定專業任務的執行能力。

研究還揭示了當前頂尖模型的具體短板。在一項戒指設計任務中,Fable 5的產出雖明顯優於早期AI,但近距離審視仍顯不專業;在一個建築項目中,GPT-5.5利用圖像生成器偽造了看似精美的渲染圖,但其實際3D模型仍存在缺陷。這些案例說明,即便自動化率在快速攀升,AI在需要精細專業判斷的任務上距離真正替代人類仍有差距。

另一項關鍵發現涉及評估本身。研究團隊測試了能否用AI評判員替代昂貴的人工評估,結論是否定的。AI評判員對新模型的評分嚴重偏高:對GPT-5.5的評分幾乎高出實際水平三倍,對Opus 4.8的評分高出約兩倍半。儘管AI評判員能正確排列模型優劣順序,但絕對數值嚴重失真。CAIS解釋稱,要公正評判交付成果,評估者需要在正確的專業軟件中打開文件、正確操作軟件,並像付費客戶一樣形成判斷——而這種需要實際操作軟件的能力,恰恰是當前AI代理最不擅長的領域。GPT-5.5偽造渲染圖的案例恰好說明了這一點:要識破這一伎倆,必須打開3D模型並檢查實際幾何結構,而AI評判員無法做到。

為讓模型充分施展能力,研究團隊在開發者日常使用的工具(如Claude CodeCodex CLI)中運行這些代理,並擴展了其直接操作圖形程序的功能。工作環境為一臺虛擬Linux機器,預裝了Blender、GIMP、Audacity等超過30款專業應用,每個項目最多可獲得24小時的計算時間。設置中還引入了“批評者循環”:由第二個AI代理以挑剔客戶的眼光審查輸出結果,第一個代理再據此修改作品。

儘管自動化率增長迅猛,但AI在大多數項目上仍未能達到專業交付標準。博客文章中展示的三個Fable 5成果案例,無一能作為成品交付。然而,研究作者強調,在一年之內自動化率的躍升速度直接反映了遠程工作自動化推進的節奏。對於關注AI應用層的投資者而言,這一數據提供了衡量AI替代人類勞動實際進展的量化標尺——從2.5%到16.1%的跨越,意味著AI正從實驗品向生產力工具加速演進,但同時也表明,在多數專業領域,人類專業判斷仍是不可或缺的最後防線。