蚂蚁百灵公开万亿级模型技术报告，详解三款开源模型架构

蚂蚁百灵团队于6月16日正式公开了Ling & Ring 2.6技术报告，详细披露了旗下三款万亿参数级模型——Ling-2.6-flash、Ling-2.6-1T和Ring-2.6-1T——在架构设计、预训练、后训练及推理基础设施等方面的完整技术路径。这三款模型此前已陆续开源，分别面向差异化的应用场景，试图在模型能力、推理成本和响应延迟之间找到更优的平衡点。

从定位来看，Ling-2.6-flash主打低延迟、高吞吐和高频调用，适用于信息抽取、格式转换、批处理以及Agent工作流中的轻量执行节点；Ling-2.6-1T则追求更高的能力密度，着力提升即时响应场景下单位输出token的信息量；Ring-2.6-1T聚焦复杂推理和Agent任务，强调长链路规划、工具调用、代码执行及环境交互能力。这种分层设计反映出大模型落地正从通用对话向更细分的生产场景演进。

在架构层面，报告指出百灵2.6系列采用了混合线性注意力机制，将闪电注意力与多头潜在注意力按7:1的比例结合，以此降低长上下文训练和解码过程中的计算开销，同时压缩键值缓存成本。这一设计使得模型在处理超长文本时，注意力计算的复杂度从平方级降至线性级，为后续将上下文窗口扩展至256K奠定了基础。

预训练方面，团队并未从零开始训练万亿参数模型，而是在Ling-2.0已有约20T tokens训练投入的基础上进行架构迁移和继续预训练。整个迁移过程分为闪电注意力转换、线性预热、MLA转换及MLA预热四个阶段，消耗约400B tokens。随后，模型又经历了约8T tokens的继续预训练和约1.2T tokens的中期训练，逐步将上下文窗口从4K扩展至32K，最终达到256K。训练数据中增强了数学、代码、智能体语料、长上下文语料及多语言语料，其中智能体语料覆盖了500多个真实MCP环境和3000多个工具。

后训练阶段，Ling-2.6和Ring-2.6走向了不同的优化方向。Ling-2.6围绕token效率展开工作，通过专家驱动的训练路线、演化式思维链、动态长度惩罚和语义冗余惩罚等手段，压缩冗余推理，力求用更少的输出token给出高质量回答。报告称，数据层面的处理让模型平均输出长度减少约200到300个token。Ring-2.6则面向长程Agent任务进行原生优化，其工具使用数据覆盖仓库级代码任务、移动端与网页搜索任务以及多步规划工作流。团队还提出了KPop算法，以更稳定的方式进行MoE模型的Agentic强化学习训练，并采用异步RL将rollout采集与参数更新解耦，以支撑万亿参数规模下的长链路任务训练。

评测结果显示了这一系列模型在特定场景下的竞争力。Ling-2.6-1T在Artificial Analysis Intelligence Index中，以约16M输出tokens取得约34分，接近GPT-5.4 Non-reasoning，并高于DeepSeek V3.2和上一代Ling-1T，体现出较高的token效率。Ring-2.6-1T在部分复杂推理和Agent任务中表现突出，其xhigh配置在ARC-AGI-V2上取得66.18分，高于Kimi-K2.6 Thinking和DeepSeek-V4-Pro Max；high配置在PinchBench上取得87.60分，高于GPT-5.4和Gemini-3.1-Pro，在ClawEval上取得63.82分，同样高于前述几个对比模型。

基础设施方面，团队通过AllGather-based上下文并行优化，使Lightning Attention在256K上下文长度下获得约68%的端到端加速。异步RL基础设施在长序列场景下带来超过80%的端到端性能提升。推理侧，团队将训练阶段积累的融合算子适配到部署环境，并通过开源高性能算子库linghe，结合前缀缓存与多token生成等技术，提升了整体吞吐和交互稳定性。

这份技术报告的公开，为外界观察国产万亿参数模型的技术细节提供了较为完整的窗口。从产业角度看，它反映出国内AI团队在模型架构创新、长上下文效率、Agent原生训练以及推理部署协同优化等方面的系统性探索。尽管报告也指出，Ling-2.6-flash在高复杂任务中的推理深度和工具调用可靠性仍受思考预算限制，长程Agent在异构执行环境中的可靠性有待提升，但模型开源与技术细节的透明化本身，有助于推动开源生态在真实应用能力上的持续进步。对于关注AI基础设施与应用落地的投资者和从业者而言，这类技术报告提供了评估模型效率与成本边界的重要参照。

蚂蚁百灵公开万亿级模型技术报告，详解三款开源模型架构

延伸阅读

相关深度报道

相关每日新闻