Hermes Agent近日上线了名为MoA(Mixture of Agents)的新功能,核心是让用户能够自由组合多个大语言模型,形成一个协同工作的虚拟模型。在Nous Research即将发布的一项基准测试中,这种混合模型组合的评分已经超过了Opus 4.8GPT-5.5这两个顶尖闭源模型,引发了业内对多模型协作路线的关注。

该功能上线的背景,是Fable 5Mythos 5等部分顶尖闭源模型因访问受限而无法被广泛使用。Nous Research在官方社交平台上直言:“最强大的模型是受限的,只有少数人才能获得访问权限。”这直接点出了当前AI模型获取的不平等现状。Hermes Agent联合创始人Teknium表示,团队正在测试各种开源模型组合,目标是验证能否用更便宜的模型达到Opus级别闭源模型的输出质量。

MoA的技术思路并非凭空出现。早在2024年6月,Together AI就曾发表论文《Mixture-of-Agents Enhances Large Language Model Capabilities》,阐述了多LLM组合的架构:每一层模型都会参考上一层模型的输出再生成自己的回答,并将模型分为参考模型和聚合模型两类。Hermes Agent此次上线的功能正是沿用了这一架构——当用户提出问题时,参考模型先进行分析判断并给出参考意见,但不执行任何工具调用或命令;随后由聚合模型综合各方意见,调用工具完成具体任务。这种设计试图发挥不同模型的独特优势,让擅长规划的模型负责思考,让长于执行的模型负责落地。

在实际使用中,用户只需在设置中开启Mixture of Agents选项,即可自由选择模型进行组合。默认配置为两个参考模型加一个聚合模型,用户也可手动添加更多参考模型。

海外博主的实测进一步揭示了该功能的实际表现。在一项使用Three.js开发原力海盗训练竞技场游戏的测试中,单一glm-5.2模型花费0.38美元、耗时13分钟完成任务,生成的游戏在移动速度和流畅度上存在不足。而启用MoA后,以kimi-k2.6minimax-m3作为参考模型、glm-5.2作为聚合模型,同样任务花费0.47美元、耗时35分钟,成本和时间均有所上升,但游戏在移动速度、流畅度和关卡合理性上明显更优。

另一项测试则要求生成一个包含火影忍者、海贼王、龙珠等IP的交互式动漫多元宇宙仪表盘。单一GPT-5.5模型耗时近7分钟完成,仪表盘中间光球的光圈质感稍显简单,但交互流畅。当改用三个grok模型作为参考模型、GPT-5.5作为聚合模型时,生成速度反而更快,博主推测这可能得益于grok快速模型的特性。最终生成的仪表盘更具设计质感,中间光球细节丰富,且支持点击不同星球进行远近景切换。

这一功能的上线,折射出AI应用层竞争逻辑的潜在转变。过去,大模型竞赛主要围绕“谁家的单一模型更强”展开,用户需要在编程、写作、推理等不同任务间频繁切换模型。而MoASakana Fugu等编排器模型的思路则截然不同:不再等待一个“万能模型”的出现,而是让多个各有所长的模型共同完成一项任务。这种走向“编排”的趋势,恰好契合了Agent的核心理念——模型提供底层能力,Agent负责组织不同模型协作,让规划能力强的模型负责思考,让执行能力强的模型负责落地。

当然,MoA模式目前仍需承担更高的推理成本,在部分任务上耗时也会显著增加,并非所有场景都适合开启。但随着推理成本的持续下降和开源模型能力的不断提升,多模型协作有可能成为未来AI Agent的默认工作方式。对于关注AI应用层的投资者和从业者而言,这一动向意味着价值创造的重心可能从单纯的模型能力竞赛,逐步向模型编排与协同效率的竞争转移。