螞蟻百靈團隊於6月16日正式公開了Ling & Ring 2.6技術報告,詳細披露了旗下三款萬億參數級模型——Ling-2.6-flash、Ling-2.6-1T和Ring-2.6-1T——在架構設計、預訓練、後訓練及推理基礎設施等方面的完整技術路徑。這三款模型此前已陸續開源,分別面向差異化的應用場景,試圖在模型能力、推理成本和響應延遲之間找到更優的平衡點。

從定位來看,Ling-2.6-flash主打低延遲、高吞吐和高頻調用,適用於信息抽取、格式轉換、批處理以及Agent工作流中的輕量執行節點;Ling-2.6-1T則追求更高的能力密度,著力提升即時響應場景下單位輸出token的信息量;Ring-2.6-1T聚焦複雜推理和Agent任務,強調長鏈路規劃、工具調用、代碼執行及環境交互能力。這種分層設計反映出大模型落地正從通用對話向更細分的生產場景演進。

在架構層面,報告指出百靈2.6系列採用了混合線性注意力機制,將閃電注意力與多頭潛在注意力按7:1的比例結合,以此降低長上下文訓練和解碼過程中的計算開銷,同時壓縮鍵值緩存成本。這一設計使得模型在處理超長文本時,注意力計算的複雜度從平方級降至線性級,為後續將上下文窗口擴展至256K奠定了基礎。

預訓練方面,團隊並未從零開始訓練萬億參數模型,而是在Ling-2.0已有約20T tokens訓練投入的基礎上進行架構遷移和繼續預訓練。整個遷移過程分為閃電注意力轉換、線性預熱、MLA轉換及MLA預熱四個階段,消耗約400B tokens。隨後,模型又經歷了約8T tokens的繼續預訓練和約1.2T tokens的中期訓練,逐步將上下文窗口從4K擴展至32K,最終達到256K。訓練數據中增強了數學、代碼、智能體語料、長上下文語料及多語言語料,其中智能體語料覆蓋了500多個真實MCP環境和3000多個工具。

後訓練階段,Ling-2.6和Ring-2.6走向了不同的優化方向。Ling-2.6圍繞token效率展開工作,通過專家驅動的訓練路線、演化式思維鏈、動態長度懲罰和語義冗餘懲罰等手段,壓縮冗餘推理,力求用更少的輸出token給出高質量回答。報告稱,數據層面的處理讓模型平均輸出長度減少約200到300個token。Ring-2.6則面向長程Agent任務進行原生優化,其工具使用數據覆蓋倉庫級代碼任務、移動端與網頁搜索任務以及多步規劃工作流。團隊還提出了KPop算法,以更穩定的方式進行MoE模型的Agentic強化學習訓練,並採用異步RL將rollout採集與參數更新解耦,以支撐萬億參數規模下的長鏈路任務訓練。

評測結果顯示了這一系列模型在特定場景下的競爭力。Ling-2.6-1T在Artificial Analysis Intelligence Index中,以約16M輸出tokens取得約34分,接近GPT-5.4 Non-reasoning,並高於DeepSeek V3.2和上一代Ling-1T,體現出較高的token效率。Ring-2.6-1T在部分複雜推理和Agent任務中表現突出,其xhigh配置在ARC-AGI-V2上取得66.18分,高於Kimi-K2.6 Thinking和DeepSeek-V4-Pro Max;high配置在PinchBench上取得87.60分,高於GPT-5.4和Gemini-3.1-Pro,在ClawEval上取得63.82分,同樣高於前述幾個對比模型。

基礎設施方面,團隊通過AllGather-based上下文並行優化,使Lightning Attention在256K上下文長度下獲得約68%的端到端加速。異步RL基礎設施在長序列場景下帶來超過80%的端到端性能提升。推理側,團隊將訓練階段積累的融合算子適配到部署環境,並通過開源高性能算子庫linghe,結合前綴緩存與多token生成等技術,提升了整體吞吐和交互穩定性。

這份技術報告的公開,為外界觀察國產萬億參數模型的技術細節提供了較為完整的窗口。從產業角度看,它反映出國內AI團隊在模型架構創新、長上下文效率、Agent原生訓練以及推理部署協同優化等方面的系統性探索。儘管報告也指出,Ling-2.6-flash在高複雜任務中的推理深度和工具調用可靠性仍受思考預算限制,長程Agent在異構執行環境中的可靠性有待提升,但模型開源與技術細節的透明化本身,有助於推動開源生態在真實應用能力上的持續進步。對於關注AI基礎設施與應用落地的投資者和從業者而言,這類技術報告提供了評估模型效率與成本邊界的重要參照。