當一款號稱“史上最強”的 AI 模型在發佈僅三天後就被政府強制斷網,整個開發者社區瞬間陷入真空。2026 年 6 月 14 日,全球最大的大模型 API 聚合平臺 OpenRouter 在 X 上發佈推文,宣佈推出 Fusion API——一個被其稱為“世界上最聰明的複合模型”的新服務,試圖用多模型協作的方式,填補 Claude Fable 5 留下的巨大空白。這條推文在短短幾天內吸引了近 600 萬人圍觀,精準踩中了市場最敏感的神經。
就在同一周,Anthropic 剛剛發佈 Claude Fable 5,這款模型以強悍的長週期智能體推理能力出圈,能將企業原本需要數月的代碼遷移工作縮短至一天。然而發佈僅三天,美國政府便籤發緊急出口管制令,Anthropic 被迫切斷全球網絡並暫停該模型的 API 訪問。原本躍躍欲試的開發者們瞬間陷入困境,而 OpenRouter 的 Fusion API 恰在此時橫空出世。
Fusion API 的核心思路並非依賴單一模型埋頭苦幹,而是讓多個 AI 模型協同配合,產出一份最優答案後統一對外輸出。其底層流程可概括為“多模型並行、裁判海選、終審合成”三步走。用戶提示詞一經觸發,系統會同時派發給最多 8 個專家模型,包括 Fable 5、GPT-5.5、Gemini 3.1 Pro 以及國產的 GLM-5.2、Kimi K2.6 等。為防止模型“閉門造車”,系統為所有專家統一配備實時聯網搜索與網頁內容抓取工具,讓它們在交卷前能查閱全網最新參考資料。隨後,一個被指定為“裁判”的模型會審閱所有專家的回答,揪出意見一致、互相矛盾、出彩見解以及共同盲點,生成細緻的分析報告。最後,一個主筆模型吸收所有優點、排除個別模型的錯誤信息,產出一份邏輯順暢的高質量回答。
值得關注的是,OpenRouter 在工程實現上展現了巧思。為避免多次調用導致系統延遲崩塌,它讓“裁判”與“主筆”兩個角色在同一個超級大模型的一次思考中一口氣完成,複雜的內部辯論與整合全在後臺悄悄進行,用戶最終只看到一個乾淨的結果。這套思路在學術界早有探索,2024 年 Together AI 團隊曾正式提出多模型協同技術範式 MoA,核心邏輯是“三個臭皮匠,頂個諸葛亮”——不再死磕單個超級昂貴的模型,而是分層讓一組便宜模型同時思考,再讓高級模型當評委,最終答案反而超越任何單體模型。Fusion 的價值在於,它是行業首個將完整“多模型合議”流程標準化、託管化、開箱即用的商用 API 產品,開發者只需改一行代碼就能指揮整個專家團。
在 DRACO 深度研究基準測試中,Fusion 的“組隊幹活”效果得到直接印證。DRACO 是 Perplexity AI 發佈的權威評測,包含法律、金融、醫學等 10 個領域的 100 道複雜任務,採用“負分淘汰制”,每道題約有 39 個判定標準進行全方位挑刺,每個回答需經三個不同裁判各看一次取穩定平均分。評測結果顯示,總榜前列幾乎清一色是“組合模型”,實際效果遠超後方單體模型。最有趣的是,由 Gemini 3 Flash、Kimi K2.6 和 DeepSeek V4 Pro 組成的“平民專家隊”,經過 Fusion 組合後,與被禁的 Fable 5 相比得分誤差不到 1%,而實現這一切的調用成本僅為 Fable 5 的一半。不過需注意,DRACO 只考察純文字、純英文的深度研究能力,不包含長週期動態任務、代碼運行、多模態與非英文場景,且分數會因裁判模型不同產生 10 到 25 分的波動。
Fusion 最引人關注的口號是“只用一半價格達到 Fable 5 的智力效果”。Claude Fable 5 的輸入每百萬 Token 為 10 美元,輸出每百萬 Token 高達 50 美元,是前代旗艦 Claude Opus 4.8 的兩倍,也是市場上最昂貴的前沿大模型之一。Fusion 的收費規則是“調用了幾個模型就付幾個模型的錢”,表面上看一條提示詞若被路由分配到 4 個模型,用戶就要付 4 次錢,似乎更貴。但省錢秘密在於 Token 價格的極端不對稱性:大模型的輸入成本通常極其廉價,而長篇輸出成本極其高昂。Fusion 通過多花幾份極便宜的輸入費,避開最貴的輸出費——4 個模型的輸入都需付錢,但最終答案只有一個模型輸出,真正花大錢的地方只有一份。配合“動態智能門控”功能,系統會自動識別簡單問題,直接讓便宜模型秒回,只有遇到超級難題才啟動多模型開會流程,進一步壓低整體成本。而真正讓“成本減半”成為可能的終極底氣來自“提示詞緩存”技術:多個專家模型可同時複用同一份緩存數據,除第一次付全價外,後續讀取只需付原價的 10% 到 20%。
不過,Fusion 目前仍無法直接替代 Fable 5,暴露出三個不容忽視的短板。首先,編程場景不實用。官方明確指出 Fusion 並非編碼模型的直接替代品,它更像一個帶搜索和運行環境的“高級智囊團”。由於多個模型協作導致反應速度跟不上編輯器敲代碼的節奏,它無法勝任代碼補全、修語法等需秒回的活兒;面對超長上下文或“整個倉庫重構”級別的任務,多模型切分容易讓上下文斷片,無法像 Fable 5 那樣保持 200k+ token 的長程連貫性;更致命的是,裁判模型只負責在意思上“開會總結”,沒有真正的編譯器當場驗證,有時會把不同語言、邏輯互相打架的代碼片段硬縫在一起,導致代碼一跑就崩。其次,速度非常慢。Fusion 需同時調用多個模型,耗時通常是單一普通模型的 2 到 4 倍,系統必須等最慢的模型跑完,裁判模型再處理所有結果才能生成最終答案,這注定了它無法用於實時客服聊天或代碼即時補全等對速度要求極高的場景。第三,數據合規存在黑箱。當開發者向 Fusion 發起請求,同一提示詞和上下文在同一秒內流經全球多家不同 AI 服務商的服務器,面對嚴苛的數據隱私法規,這些服務商如何留存數據、OpenRouter 作為中間路由層能否提供有效技術擔保,目前答案仍不透明。
Fusion 的出現,正在從多個維度重塑 AI 行業的底層邏輯。過去兩年,行業陷入對“萬億參數單體戰神”的盲目崇拜,堅信只要算力足夠大就能大力出奇跡。但隨著算力邊際效應遞減,Fusion 用一套精巧的拼盤方案證明,系統的整體能力可以大於單體之和。在商業權力層面,一旦“一個 Opus 加三個中等模型”能打平 Fable 5,大模型能力的“商品化”時代就真正到來,底層模型將變得像雲服務器裡的 CPU 算力一樣不再具有不可替代的神秘光環,這不僅會迫使前沿大模型重新審視定價,甚至可能催生出像 OpenRouter 這樣手握“流量分發權”的超級路由平臺。在地緣政治層面,Fable 5 發佈僅三天就被緊急拔掉網線,給全球開發者上了一堂生動的課:將全部業務核心押注在單一大模型上的風險,遠比許多開發者以為的要大,多模型依賴正從可選變成必需。