当一款号称“史上最强”的 AI 模型在发布仅三天后就被政府强制断网,整个开发者社区瞬间陷入真空。2026 年 6 月 14 日,全球最大的大模型 API 聚合平台 OpenRouter 在 X 上发布推文,宣布推出 Fusion API——一个被其称为“世界上最聪明的复合模型”的新服务,试图用多模型协作的方式,填补 Claude Fable 5 留下的巨大空白。这条推文在短短几天内吸引了近 600 万人围观,精准踩中了市场最敏感的神经。
就在同一周,Anthropic 刚刚发布 Claude Fable 5,这款模型以强悍的长周期智能体推理能力出圈,能将企业原本需要数月的代码迁移工作缩短至一天。然而发布仅三天,美国政府便签发紧急出口管制令,Anthropic 被迫切断全球网络并暂停该模型的 API 访问。原本跃跃欲试的开发者们瞬间陷入困境,而 OpenRouter 的 Fusion API 恰在此时横空出世。
Fusion API 的核心思路并非依赖单一模型埋头苦干,而是让多个 AI 模型协同配合,产出一份最优答案后统一对外输出。其底层流程可概括为“多模型并行、裁判海选、终审合成”三步走。用户提示词一经触发,系统会同时派发给最多 8 个专家模型,包括 Fable 5、GPT-5.5、Gemini 3.1 Pro 以及国产的 GLM-5.2、Kimi K2.6 等。为防止模型“闭门造车”,系统为所有专家统一配备实时联网搜索与网页内容抓取工具,让它们在交卷前能查阅全网最新参考资料。随后,一个被指定为“裁判”的模型会审阅所有专家的回答,揪出意见一致、互相矛盾、出彩见解以及共同盲点,生成细致的分析报告。最后,一个主笔模型吸收所有优点、排除个别模型的错误信息,产出一份逻辑顺畅的高质量回答。
值得关注的是,OpenRouter 在工程实现上展现了巧思。为避免多次调用导致系统延迟崩塌,它让“裁判”与“主笔”两个角色在同一个超级大模型的一次思考中一口气完成,复杂的内部辩论与整合全在后台悄悄进行,用户最终只看到一个干净的结果。这套思路在学术界早有探索,2024 年 Together AI 团队曾正式提出多模型协同技术范式 MoA,核心逻辑是“三个臭皮匠,顶个诸葛亮”——不再死磕单个超级昂贵的模型,而是分层让一组便宜模型同时思考,再让高级模型当评委,最终答案反而超越任何单体模型。Fusion 的价值在于,它是行业首个将完整“多模型合议”流程标准化、托管化、开箱即用的商用 API 产品,开发者只需改一行代码就能指挥整个专家团。
在 DRACO 深度研究基准测试中,Fusion 的“组队干活”效果得到直接印证。DRACO 是 Perplexity AI 发布的权威评测,包含法律、金融、医学等 10 个领域的 100 道复杂任务,采用“负分淘汰制”,每道题约有 39 个判定标准进行全方位挑刺,每个回答需经三个不同裁判各看一次取稳定平均分。评测结果显示,总榜前列几乎清一色是“组合模型”,实际效果远超后方单体模型。最有趣的是,由 Gemini 3 Flash、Kimi K2.6 和 DeepSeek V4 Pro 组成的“平民专家队”,经过 Fusion 组合后,与被禁的 Fable 5 相比得分误差不到 1%,而实现这一切的调用成本仅为 Fable 5 的一半。不过需注意,DRACO 只考察纯文字、纯英文的深度研究能力,不包含长周期动态任务、代码运行、多模态与非英文场景,且分数会因裁判模型不同产生 10 到 25 分的波动。
Fusion 最引人关注的口号是“只用一半价格达到 Fable 5 的智力效果”。Claude Fable 5 的输入每百万 Token 为 10 美元,输出每百万 Token 高达 50 美元,是前代旗舰 Claude Opus 4.8 的两倍,也是市场上最昂贵的前沿大模型之一。Fusion 的收费规则是“调用了几个模型就付几个模型的钱”,表面上看一条提示词若被路由分配到 4 个模型,用户就要付 4 次钱,似乎更贵。但省钱秘密在于 Token 价格的极端不对称性:大模型的输入成本通常极其廉价,而长篇输出成本极其高昂。Fusion 通过多花几份极便宜的输入费,避开最贵的输出费——4 个模型的输入都需付钱,但最终答案只有一个模型输出,真正花大钱的地方只有一份。配合“动态智能门控”功能,系统会自动识别简单问题,直接让便宜模型秒回,只有遇到超级难题才启动多模型开会流程,进一步压低整体成本。而真正让“成本减半”成为可能的终极底气来自“提示词缓存”技术:多个专家模型可同时复用同一份缓存数据,除第一次付全价外,后续读取只需付原价的 10% 到 20%。
不过,Fusion 目前仍无法直接替代 Fable 5,暴露出三个不容忽视的短板。首先,编程场景不实用。官方明确指出 Fusion 并非编码模型的直接替代品,它更像一个带搜索和运行环境的“高级智囊团”。由于多个模型协作导致反应速度跟不上编辑器敲代码的节奏,它无法胜任代码补全、修语法等需秒回的活儿;面对超长上下文或“整个仓库重构”级别的任务,多模型切分容易让上下文断片,无法像 Fable 5 那样保持 200k+ token 的长程连贯性;更致命的是,裁判模型只负责在意思上“开会总结”,没有真正的编译器当场验证,有时会把不同语言、逻辑互相打架的代码片段硬缝在一起,导致代码一跑就崩。其次,速度非常慢。Fusion 需同时调用多个模型,耗时通常是单一普通模型的 2 到 4 倍,系统必须等最慢的模型跑完,裁判模型再处理所有结果才能生成最终答案,这注定了它无法用于实时客服聊天或代码即时补全等对速度要求极高的场景。第三,数据合规存在黑箱。当开发者向 Fusion 发起请求,同一提示词和上下文在同一秒内流经全球多家不同 AI 服务商的服务器,面对严苛的数据隐私法规,这些服务商如何留存数据、OpenRouter 作为中间路由层能否提供有效技术担保,目前答案仍不透明。
Fusion 的出现,正在从多个维度重塑 AI 行业的底层逻辑。过去两年,行业陷入对“万亿参数单体战神”的盲目崇拜,坚信只要算力足够大就能大力出奇迹。但随着算力边际效应递减,Fusion 用一套精巧的拼盘方案证明,系统的整体能力可以大于单体之和。在商业权力层面,一旦“一个 Opus 加三个中等模型”能打平 Fable 5,大模型能力的“商品化”时代就真正到来,底层模型将变得像云服务器里的 CPU 算力一样不再具有不可替代的神秘光环,这不仅会迫使前沿大模型重新审视定价,甚至可能催生出像 OpenRouter 这样手握“流量分发权”的超级路由平台。在地缘政治层面,Fable 5 发布仅三天就被紧急拔掉网线,给全球开发者上了一堂生动的课:将全部业务核心押注在单一大模型上的风险,远比许多开发者以为的要大,多模型依赖正从可选变成必需。