日本東京的 AI 初創公司 Sakana AI 近日正式推出了一款名為 Fugu 的多模型調度系統。該系統並非一個全新的大語言模型,而是一個經過專門訓練的“模型調度器”,能夠根據用戶請求,動態地從可替換的模型池中選取並協調多個大語言模型協同工作,最終通過一個兼容 OpenAI 格式的單一 API 對外提供服務。對用戶而言,調用 Fugu 的體驗就像在調用一個單一的模型。
Sakana AI 此次發佈包含兩個版本:面向日常任務、注重低延遲的 Fugu 基礎版,以及專為複雜多步問題設計、追求極致答案質量的 Fugu Ultra。根據 Sakana AI 公佈的基準測試結果,Fugu Ultra 在編程、推理、科學和智能體等一系列測試中,取得了與 Anthropic 旗下頂尖模型 Fable 5 和 Mythos Preview 相當的性能表現。值得注意的是,由於 Anthropic 的這兩款模型並未公開可用,它們甚至不在 Fugu 的調度池中。Sakana AI 表示,如果將這些模型納入池中,Fugu 的整體得分可能會更高。
Fugu 的核心技術建立在 Sakana AI 自身的研究之上,特別是其在 ICLR 2026 上發表的兩篇論文《Trinity》和《Conductor》,專注於“學習型模型編排”。這一技術路徑契合了 Sakana AI 更宏大的願景,即將群體行為、進化和集體智能等自然原理應用於人工智能系統。此前,Sakana AI 在編程領域的編排器設置上已取得過顯著成果,其 ALE-Agent 曾在一場編程競賽中,從 1000 名人類專家裡脫穎而出,獲得第 21 名。
除了性能上的對標,Sakana AI 將 Fugu 定位為一種對抗供應商鎖定的對沖工具。該公司在公告中直言,對於一個組織或國家而言,在關鍵基礎設施、金融或治理領域依賴單一公司的 API 是一種“實質性的脆弱性”。近期針對 Anthropic 的 Fable 和 Mythos 模型實施的出口管制,就是一個現實的例證,表明獲取頂尖 AI 系統的渠道可能因監管變化或外交政策決策而一夜之間消失。Fugu 完全可替換的模型池設計,意味著當某個供應商的服務中斷時,系統可以自動將任務路由至其他可用模型,從而提升關鍵 AI 應用的韌性。
當然,這種韌性並非絕對。Fugu 的實際表現完全取決於其模型池中有哪些模型可用。如果多個頂級供應商同時限制訪問,Fugu 的選擇範圍也會相應縮小。它更像是一種增強彈性的機制,而非實現真正技術主權的完整方案。
據 Sakana AI 透露,已有約 500 名測試用戶在實際場景中體驗了該系統。反饋顯示,Fugu 在自動化數據研究、安全分析和代碼審查等長鏈條、多步驟的工作流中優勢最為明顯。一位軟件開發者表示,Fugu Ultra 在代碼審查中發現的漏洞遠超其他工具,當別的工具只標記出大約三個問題時,Fugu 能找出超過二十個。Sakana AI 的自測數據也聲稱,Fugu 在自動化研究、機械設計和金融預測等任務上擊敗了 Gemini 3.1 Pro、Opus 4.8 和 GPT 5.5。
目前,Fugu 的兩個版本均已通過單一 API 上線,Sakana AI 提供了針對日常使用的訂閱計劃和麵向更大工作負載的按量計費模式。Fugu 的出現,標誌著 AI 產業在應用層正探索一條不同於單純追求更大參數模型的路徑——通過智能編排現有模型的能力,在特定任務上實現性能的躍升,並試圖為下游用戶提供一層抵禦供應鏈不確定性的緩衝。