AI Agent的兴起正在从根本上改变推理计算的复杂度。与传统的单轮问答不同,Agent需要多步推理、工具调用和代码操作,其请求序列往往是非确定性的——这给硬件性能评估带来了全新挑战。长期以来,业界缺乏一个能真实反映Agent工作负载特征的标准化测试,直到Artificial Analysis发布了AA-AgentPerf。
AA-AgentPerf是业界首个多厂商开放的Agent推理基准,专门针对编码场景设计。它的核心思路是:基于预录的Agent执行轨迹来驱动测试,这些轨迹覆盖了十多种编程语言、多个公共代码仓库中的真实问题修复过程,并穿插了推理与工具调用的交替步骤。测试时,系统会向GPU发送数千个并发请求,同时模拟CPU处理工具调用时的回合间延迟,并严格遵循预设的服务等级目标——包括输出token速度和首token延迟阈值。
该基准的关键指标是每兆瓦支持的并发Agent数量,这一归一化方式直接反映了数据中心规模的能效表现。在发布当日的测试中,英伟达的GB300 NVL72系统表现突出:相比上一代H200,它在相同功耗下可支持的并发Agent编码会话数提升了最高20倍。这一成绩得益于GB300 NVL72在架构上的深度协同设计——从高效路由长周期会话,到在大量并发Agent间保持混合专家模型与GPU的高利用率,软硬件的紧密整合释放了阶跃式的并发与效率增益。
AA-AgentPerf的出现填补了行业空白。此前,推理性能的衡量多集中在单次请求的延迟或吞吐量上,而Agent工作负载的复杂性——包括非确定性决策链、多工具调用和长上下文维持——使得传统指标难以反映真实用户体验。Artificial Analysis团队通过构建代表性轨迹数据集,并基于无服务器API的生产级服务质量数据设定SLO层级,让测试结果更贴近实际部署场景。
从产业视角看,这一基准的建立对AI基础设施投资具有风向标意义。随着Agent应用从实验走向规模化落地,数据中心运营商和企业客户在选型时,将越来越关注系统在真实Agent负载下的并发能力与能效比。英伟达GB300 NVL72的早期成绩,展示了其在大规模Agent编码工作负载上的优势,而即将推出的Vera Rubin平台预计将进一步延伸这一势头——该平台将利用50 PFLOPs的NVFP4算力,并通过Vera CPU加速LLM的工具调用,从端到端优化Agent工作流的经济性与效率。
值得注意的是,AA-AgentPerf目前首发测试聚焦于DeepSeek-V4-Pro模型,未来随着更多模型和硬件配置的加入,这一基准有望成为Agent推理生态的通用比较框架。对于关注AI算力链条的投资者而言,Agent推理基准的标准化,意味着硬件竞争力的评判将从“训练峰值”进一步向“推理能效”和“并发承载力”倾斜,这对芯片设计、数据中心架构乃至云服务定价都可能产生深远影响。