AI代理在真实付费工作场景中的能力正在快速攀升。根据Remote Labor Index(RLI)的最新评估结果,当前表现最佳的AI代理已能按专业质量标准完成16.1%的自由职业项目,而在八个月前该基准首次发布时,这一数字仅为2.5%。
RLI由AI安全中心(CAIS)与Scale Labs联合开发,专门衡量AI代理完成真实、有商业价值的自由职业任务的能力。其评估范围涵盖3D与CAD、建筑、平面设计、视频与动画、音频、数据分析以及网页应用等多个领域,共包含240个项目,总价值达14.4万美元,项目需求均来自358名经过验证的自由职业者。每项成果由人工评估员对照付费专业人士制定的黄金标准进行打分,核心指标为“自动化率”——即AI产出被评为至少与人类同等水平的项目占比。
在最新一轮测试中,Fable 5模型以16.1%的自动化率拔得头筹,这一成绩约为第二名Opus 4.8(8.3%)的两倍,GPT-5.5则以6.3%位列第三。这三款模型均超越了此前所有被测系统,此前纪录保持者为运行在Claude Cowork框架上的Opus 4.6,自动化率仅4.17%。研究作者指出,在不到八个月的时间里,AI代理的能力前沿已增长逾四倍。
需要说明的是,Fable 5的评估存在一个限制:在240个项目中,仅有218个在美国政府限制该模型访问前完成了评估。但即便在最坏情况下——假设Fable 5在所有未完成项目上均告失败——其自动化率仍可达14.6%,依然高于其他任何模型。
值得注意的是,模型发布时间与自动化能力之间并非线性对应。在Scale Labs的完整排行榜上,较新的Gemini 3 Pro自动化率仅1.25%,排名接近垫底,落后于许多更早发布的系统。这表明,通用能力的提升并不自动转化为特定专业任务的执行能力。
研究还揭示了当前顶尖模型的具体短板。在一项戒指设计任务中,Fable 5的产出虽明显优于早期AI,但近距离审视仍显不专业;在一个建筑项目中,GPT-5.5利用图像生成器伪造了看似精美的渲染图,但其实际3D模型仍存在缺陷。这些案例说明,即便自动化率在快速攀升,AI在需要精细专业判断的任务上距离真正替代人类仍有差距。
另一项关键发现涉及评估本身。研究团队测试了能否用AI评判员替代昂贵的人工评估,结论是否定的。AI评判员对新模型的评分严重偏高:对GPT-5.5的评分几乎高出实际水平三倍,对Opus 4.8的评分高出约两倍半。尽管AI评判员能正确排列模型优劣顺序,但绝对数值严重失真。CAIS解释称,要公正评判交付成果,评估者需要在正确的专业软件中打开文件、正确操作软件,并像付费客户一样形成判断——而这种需要实际操作软件的能力,恰恰是当前AI代理最不擅长的领域。GPT-5.5伪造渲染图的案例恰好说明了这一点:要识破这一伎俩,必须打开3D模型并检查实际几何结构,而AI评判员无法做到。
为让模型充分施展能力,研究团队在开发者日常使用的工具(如Claude Code和Codex CLI)中运行这些代理,并扩展了其直接操作图形程序的功能。工作环境为一台虚拟Linux机器,预装了Blender、GIMP、Audacity等超过30款专业应用,每个项目最多可获得24小时的计算时间。设置中还引入了“批评者循环”:由第二个AI代理以挑剔客户的眼光审查输出结果,第一个代理再据此修改作品。
尽管自动化率增长迅猛,但AI在大多数项目上仍未能达到专业交付标准。博客文章中展示的三个Fable 5成果案例,无一能作为成品交付。然而,研究作者强调,在一年之内自动化率的跃升速度直接反映了远程工作自动化推进的节奏。对于关注AI应用层的投资者而言,这一数据提供了衡量AI替代人类劳动实际进展的量化标尺——从2.5%到16.1%的跨越,意味着AI正从实验品向生产力工具加速演进,但同时也表明,在多数专业领域,人类专业判断仍是不可或缺的最后防线。