美團旗下LongCat基座團隊正式發佈LongCat-2.0,一個總參數量達到1.6萬億混合專家(MoE)模型。該模型從預訓練到部署的完整流程,全部運行在約5萬張國產芯片上,沒有使用任何英偉達GPU,成為全球首個“英偉達含量為零”的萬億級大模型。

LongCat-2.0採用自研MoE架構,每次推理僅激活約480億參數,並原生支持100萬token的超長上下文窗口。在多項專業評測中,它在代碼生成、工具調用以及多步邏輯推理等任務上展現出較強的綜合能力。更值得注意的是,該模型此前以Owl Alpha的匿名身份在OpenRouter平臺上架,月調用量在開源模型中名列前茅,與Hermes、Claude Code等工具搭配使用時被大量開發者選用,提前經歷了真實市場流量的檢驗。

在架構層面,LongCat-2.0針對Agent場景做了多項原創設計。其核心之一是LongCat稀疏注意力(LSA),對DeepSeek此前提出的稀疏注意力方案進行優化,通過改進索引器結構,顯著提升了超長上下文處理速度,同時保持模型質量基本無損。另一個設計是N-gram Embedding,將部分參數前移至嵌入層,讓模型更早識別高頻詞組和語言模式,既提高了代碼與指令理解準確率,也減少了專家模塊間的通信開銷。此外,ScMoE快捷連接零計算專家等機制,均旨在讓算力更精準地分配到關鍵計算上,降低無效消耗。

將如此規模的模型跑在國產芯片上,工程挑戰巨大。國產硬件在通信帶寬、算子成熟度等方面與英偉達平臺存在差距,跨節點通信延遲更高,並行訓練中計算與通信容易錯位。LongCat團隊為此重寫了大量底層算子,例如FlashAttention的反向梯度算子,原有國產實現只能單核串行,速度慢20到70倍,團隊通過自研優化使其達到生產可用水平。在集群穩定性方面,團隊搭建了自動化故障處理體系,將日均故障率從萬分之15.7降至萬分之4.4,並支持訓練任務從2560張卡平滑擴展至5萬張以上,硬件利用率(MFU)從17.8%提升至27.68%,單日Token處理能力從7170億提升至1.12萬億

成本是LongCat-2.0的另一優勢。由於零計算專家減少了無效運算、N-gram Embedding降低了通信壓力,再疊加國產芯片本身的成本結構,其訓推成本據稱遠低於同等規模的英偉達路線。在實際測試中,生成同一段物理仿真代碼,LongCat-2.0僅消耗9004個token,按美團計費標準不足0.1元人民幣,且官方表示緩存命中不計費,進一步壓低了使用成本。

美團LongCat團隊的路線選擇具有清晰的戰略邏輯。自2023年初成立以來,團隊就決定從底層搭建國產算力集群,用“時間換空間”的方式,接受短期適配陣痛,以吃透國產算力全鏈路。這條路徑的演進軌跡為:2023年跑通千億參數訓練流程,2024年在國產卡上驗證MoE架構,2025年推出5600億參數的LongCat-Flash,2026年落地1.6萬億參數的LongCat-2.0。今年3月,美團核心本地商業CEO王莆中在內部提出“建設物理世界AI底座”的目標,強調持續投入基礎模型,做有特色、低推理成本且能力緊跟前沿的模型。LongCat-2.0的發佈,正是這一策略的階段性落地。

從產業視角看,LongCat-2.0的意義不止於一個模型本身。它首次證明,脫離英偉達生態、完全基於國產算力,也能完成萬億級先進模型的持續訓練、部署與迭代。對於國產AI芯片供應鏈、對於尋求算力多元化的AI應用企業而言,這提供了一個可參照的完整樣本。而Owl Alpha在匿名狀態下獲得開發者認可,則從市場端驗證了模型的實際交付能力,而非僅停留在紙面指標上。