無英偉達GPU的萬億參數模型登頂OpenRouter榜首

一個完全不用英偉達芯片的萬億參數模型在開發者平臺OpenRouter上排名第一

美團旗下LongCat基座團隊正式發佈LongCat-2.0，一個總參數量達到1.6萬億的混合專家（MoE）模型。該模型從預訓練到部署的完整流程，全部運行在約5萬張國產芯片上，沒有使用任何英偉達GPU，成為全球首個“英偉達含量為零”的萬億級大模型。

LongCat-2.0採用自研MoE架構，每次推理僅激活約480億參數，並原生支持100萬token的超長上下文窗口。在多項專業評測中，它在代碼生成、工具調用以及多步邏輯推理等任務上展現出較強的綜合能力。更值得注意的是，該模型此前以Owl Alpha的匿名身份在OpenRouter平臺上架，月調用量在開源模型中名列前茅，與Hermes、Claude Code等工具搭配使用時被大量開發者選用，提前經歷了真實市場流量的檢驗。

在架構層面，LongCat-2.0針對Agent場景做了多項原創設計。其核心之一是LongCat稀疏注意力（LSA），對DeepSeek此前提出的稀疏注意力方案進行優化，通過改進索引器結構，顯著提升了超長上下文處理速度，同時保持模型質量基本無損。另一個設計是N-gram Embedding，將部分參數前移至嵌入層，讓模型更早識別高頻詞組和語言模式，既提高了代碼與指令理解準確率，也減少了專家模塊間的通信開銷。此外，ScMoE快捷連接和零計算專家等機制，均旨在讓算力更精準地分配到關鍵計算上，降低無效消耗。

將如此規模的模型跑在國產芯片上，工程挑戰巨大。國產硬件在通信帶寬、算子成熟度等方面與英偉達平臺存在差距，跨節點通信延遲更高，並行訓練中計算與通信容易錯位。LongCat團隊為此重寫了大量底層算子，例如FlashAttention的反向梯度算子，原有國產實現只能單核串行，速度慢20到70倍，團隊通過自研優化使其達到生產可用水平。在集群穩定性方面，團隊搭建了自動化故障處理體系，將日均故障率從萬分之15.7降至萬分之4.4，並支持訓練任務從2560張卡平滑擴展至5萬張以上，硬件利用率（MFU）從17.8%提升至27.68%，單日Token處理能力從7170億提升至1.12萬億。

成本是LongCat-2.0的另一優勢。由於零計算專家減少了無效運算、N-gram Embedding降低了通信壓力，再疊加國產芯片本身的成本結構，其訓推成本據稱遠低於同等規模的英偉達路線。在實際測試中，生成同一段物理仿真代碼，LongCat-2.0僅消耗9004個token，按美團計費標準不足0.1元人民幣，且官方表示緩存命中不計費，進一步壓低了使用成本。

美團LongCat團隊的路線選擇具有清晰的戰略邏輯。自2023年初成立以來，團隊就決定從底層搭建國產算力集群，用“時間換空間”的方式，接受短期適配陣痛，以吃透國產算力全鏈路。這條路徑的演進軌跡為：2023年跑通千億參數訓練流程，2024年在國產卡上驗證MoE架構，2025年推出5600億參數的LongCat-Flash，2026年落地1.6萬億參數的LongCat-2.0。今年3月，美團核心本地商業CEO王莆中在內部提出“建設物理世界AI底座”的目標，強調持續投入基礎模型，做有特色、低推理成本且能力緊跟前沿的模型。LongCat-2.0的發佈，正是這一策略的階段性落地。

從產業視角看，LongCat-2.0的意義不止於一個模型本身。它首次證明，脫離英偉達生態、完全基於國產算力，也能完成萬億級先進模型的持續訓練、部署與迭代。對於國產AI芯片供應鏈、對於尋求算力多元化的AI應用企業而言，這提供了一個可參照的完整樣本。而Owl Alpha在匿名狀態下獲得開發者認可，則從市場端驗證了模型的實際交付能力，而非僅停留在紙面指標上。

無英偉達GPU的萬億參數模型登頂OpenRouter榜首

延伸閱讀

相關深度報道

相關每日新聞