美团旗下LongCat基座团队正式发布LongCat-2.0,一个总参数量达到1.6万亿的混合专家(MoE)模型。该模型从预训练到部署的完整流程,全部运行在约5万张国产芯片上,没有使用任何英伟达GPU,成为全球首个“英伟达含量为零”的万亿级大模型。
LongCat-2.0采用自研MoE架构,每次推理仅激活约480亿参数,并原生支持100万token的超长上下文窗口。在多项专业评测中,它在代码生成、工具调用以及多步逻辑推理等任务上展现出较强的综合能力。更值得注意的是,该模型此前以Owl Alpha的匿名身份在OpenRouter平台上架,月调用量在开源模型中名列前茅,与Hermes、Claude Code等工具搭配使用时被大量开发者选用,提前经历了真实市场流量的检验。
在架构层面,LongCat-2.0针对Agent场景做了多项原创设计。其核心之一是LongCat稀疏注意力(LSA),对DeepSeek此前提出的稀疏注意力方案进行优化,通过改进索引器结构,显著提升了超长上下文处理速度,同时保持模型质量基本无损。另一个设计是N-gram Embedding,将部分参数前移至嵌入层,让模型更早识别高频词组和语言模式,既提高了代码与指令理解准确率,也减少了专家模块间的通信开销。此外,ScMoE快捷连接和零计算专家等机制,均旨在让算力更精准地分配到关键计算上,降低无效消耗。
将如此规模的模型跑在国产芯片上,工程挑战巨大。国产硬件在通信带宽、算子成熟度等方面与英伟达平台存在差距,跨节点通信延迟更高,并行训练中计算与通信容易错位。LongCat团队为此重写了大量底层算子,例如FlashAttention的反向梯度算子,原有国产实现只能单核串行,速度慢20到70倍,团队通过自研优化使其达到生产可用水平。在集群稳定性方面,团队搭建了自动化故障处理体系,将日均故障率从万分之15.7降至万分之4.4,并支持训练任务从2560张卡平滑扩展至5万张以上,硬件利用率(MFU)从17.8%提升至27.68%,单日Token处理能力从7170亿提升至1.12万亿。
成本是LongCat-2.0的另一优势。由于零计算专家减少了无效运算、N-gram Embedding降低了通信压力,再叠加国产芯片本身的成本结构,其训推成本据称远低于同等规模的英伟达路线。在实际测试中,生成同一段物理仿真代码,LongCat-2.0仅消耗9004个token,按美团计费标准不足0.1元人民币,且官方表示缓存命中不计费,进一步压低了使用成本。
美团LongCat团队的路线选择具有清晰的战略逻辑。自2023年初成立以来,团队就决定从底层搭建国产算力集群,用“时间换空间”的方式,接受短期适配阵痛,以吃透国产算力全链路。这条路径的演进轨迹为:2023年跑通千亿参数训练流程,2024年在国产卡上验证MoE架构,2025年推出5600亿参数的LongCat-Flash,2026年落地1.6万亿参数的LongCat-2.0。今年3月,美团核心本地商业CEO王莆中在内部提出“建设物理世界AI底座”的目标,强调持续投入基础模型,做有特色、低推理成本且能力紧跟前沿的模型。LongCat-2.0的发布,正是这一策略的阶段性落地。
从产业视角看,LongCat-2.0的意义不止于一个模型本身。它首次证明,脱离英伟达生态、完全基于国产算力,也能完成万亿级先进模型的持续训练、部署与迭代。对于国产AI芯片供应链、对于寻求算力多元化的AI应用企业而言,这提供了一个可参照的完整样本。而Owl Alpha在匿名状态下获得开发者认可,则从市场端验证了模型的实际交付能力,而非仅停留在纸面指标上。