英伟达在首个AI Agent基准测试中展现领先编码性能

英伟达在首个多厂商开放基准AA-AgentPerf中，取得AI Agent推理性能领先。

AI Agent的兴起正在从根本上改变推理计算的复杂度。与传统的单轮问答不同，Agent需要多步推理、工具调用和代码操作，其请求序列往往是非确定性的——这给硬件性能评估带来了全新挑战。长期以来，业界缺乏一个能真实反映Agent工作负载特征的标准化测试，直到Artificial Analysis发布了AA-AgentPerf。

AA-AgentPerf是业界首个多厂商开放的Agent推理基准，专门针对编码场景设计。它的核心思路是：基于预录的Agent执行轨迹来驱动测试，这些轨迹覆盖了十多种编程语言、多个公共代码仓库中的真实问题修复过程，并穿插了推理与工具调用的交替步骤。测试时，系统会向GPU发送数千个并发请求，同时模拟CPU处理工具调用时的回合间延迟，并严格遵循预设的服务等级目标——包括输出token速度和首token延迟阈值。

该基准的关键指标是每兆瓦支持的并发Agent数量，这一归一化方式直接反映了数据中心规模的能效表现。在发布当日的测试中，英伟达的GB300 NVL72系统表现突出：相比上一代H200，它在相同功耗下可支持的并发Agent编码会话数提升了最高20倍。这一成绩得益于GB300 NVL72在架构上的深度协同设计——从高效路由长周期会话，到在大量并发Agent间保持混合专家模型与GPU的高利用率，软硬件的紧密整合释放了阶跃式的并发与效率增益。

AA-AgentPerf的出现填补了行业空白。此前，推理性能的衡量多集中在单次请求的延迟或吞吐量上，而Agent工作负载的复杂性——包括非确定性决策链、多工具调用和长上下文维持——使得传统指标难以反映真实用户体验。Artificial Analysis团队通过构建代表性轨迹数据集，并基于无服务器API的生产级服务质量数据设定SLO层级，让测试结果更贴近实际部署场景。

从产业视角看，这一基准的建立对AI基础设施投资具有风向标意义。随着Agent应用从实验走向规模化落地，数据中心运营商和企业客户在选型时，将越来越关注系统在真实Agent负载下的并发能力与能效比。英伟达GB300 NVL72的早期成绩，展示了其在大规模Agent编码工作负载上的优势，而即将推出的Vera Rubin平台预计将进一步延伸这一势头——该平台将利用50 PFLOPs的NVFP4算力，并通过Vera CPU加速LLM的工具调用，从端到端优化Agent工作流的经济性与效率。

值得注意的是，AA-AgentPerf目前首发测试聚焦于DeepSeek-V4-Pro模型，未来随着更多模型和硬件配置的加入，这一基准有望成为Agent推理生态的通用比较框架。对于关注AI算力链条的投资者而言，Agent推理基准的标准化，意味着硬件竞争力的评判将从“训练峰值”进一步向“推理能效”和“并发承载力”倾斜，这对芯片设计、数据中心架构乃至云服务定价都可能产生深远影响。

英伟达在首个AI Agent基准测试中展现领先编码性能

延伸阅读

相关深度报道

相关每日新闻