无英伟达GPU的万亿参数模型登顶OpenRouter榜首

一个完全不用英伟达芯片的万亿参数模型在开发者平台OpenRouter上排名第一

美团旗下LongCat基座团队正式发布LongCat-2.0，一个总参数量达到1.6万亿的混合专家（MoE）模型。该模型从预训练到部署的完整流程，全部运行在约5万张国产芯片上，没有使用任何英伟达GPU，成为全球首个“英伟达含量为零”的万亿级大模型。

LongCat-2.0采用自研MoE架构，每次推理仅激活约480亿参数，并原生支持100万token的超长上下文窗口。在多项专业评测中，它在代码生成、工具调用以及多步逻辑推理等任务上展现出较强的综合能力。更值得注意的是，该模型此前以Owl Alpha的匿名身份在OpenRouter平台上架，月调用量在开源模型中名列前茅，与Hermes、Claude Code等工具搭配使用时被大量开发者选用，提前经历了真实市场流量的检验。

在架构层面，LongCat-2.0针对Agent场景做了多项原创设计。其核心之一是LongCat稀疏注意力（LSA），对DeepSeek此前提出的稀疏注意力方案进行优化，通过改进索引器结构，显著提升了超长上下文处理速度，同时保持模型质量基本无损。另一个设计是N-gram Embedding，将部分参数前移至嵌入层，让模型更早识别高频词组和语言模式，既提高了代码与指令理解准确率，也减少了专家模块间的通信开销。此外，ScMoE快捷连接和零计算专家等机制，均旨在让算力更精准地分配到关键计算上，降低无效消耗。

将如此规模的模型跑在国产芯片上，工程挑战巨大。国产硬件在通信带宽、算子成熟度等方面与英伟达平台存在差距，跨节点通信延迟更高，并行训练中计算与通信容易错位。LongCat团队为此重写了大量底层算子，例如FlashAttention的反向梯度算子，原有国产实现只能单核串行，速度慢20到70倍，团队通过自研优化使其达到生产可用水平。在集群稳定性方面，团队搭建了自动化故障处理体系，将日均故障率从万分之15.7降至万分之4.4，并支持训练任务从2560张卡平滑扩展至5万张以上，硬件利用率（MFU）从17.8%提升至27.68%，单日Token处理能力从7170亿提升至1.12万亿。

成本是LongCat-2.0的另一优势。由于零计算专家减少了无效运算、N-gram Embedding降低了通信压力，再叠加国产芯片本身的成本结构，其训推成本据称远低于同等规模的英伟达路线。在实际测试中，生成同一段物理仿真代码，LongCat-2.0仅消耗9004个token，按美团计费标准不足0.1元人民币，且官方表示缓存命中不计费，进一步压低了使用成本。

美团LongCat团队的路线选择具有清晰的战略逻辑。自2023年初成立以来，团队就决定从底层搭建国产算力集群，用“时间换空间”的方式，接受短期适配阵痛，以吃透国产算力全链路。这条路径的演进轨迹为：2023年跑通千亿参数训练流程，2024年在国产卡上验证MoE架构，2025年推出5600亿参数的LongCat-Flash，2026年落地1.6万亿参数的LongCat-2.0。今年3月，美团核心本地商业CEO王莆中在内部提出“建设物理世界AI底座”的目标，强调持续投入基础模型，做有特色、低推理成本且能力紧跟前沿的模型。LongCat-2.0的发布，正是这一策略的阶段性落地。

从产业视角看，LongCat-2.0的意义不止于一个模型本身。它首次证明，脱离英伟达生态、完全基于国产算力，也能完成万亿级先进模型的持续训练、部署与迭代。对于国产AI芯片供应链、对于寻求算力多元化的AI应用企业而言，这提供了一个可参照的完整样本。而Owl Alpha在匿名状态下获得开发者认可，则从市场端验证了模型的实际交付能力，而非仅停留在纸面指标上。

无英伟达GPU的万亿参数模型登顶OpenRouter榜首

延伸阅读

相关深度报道

相关每日新闻