螞蟻百靈公開萬億級模型技術報告，詳解三款開源模型架構

螞蟻百靈團隊於6月16日正式公開了Ling & Ring 2.6技術報告，詳細披露了旗下三款萬億引數級模型——Ling-2.6-flash、Ling-2.6-1T和Ring-2.6-1T——在架構設計、預訓練、後訓練及推理基礎設施等方面的完整技術路徑。這三款模型此前已陸續開源，分別面向差異化的應用場景，試圖在模型能力、推理成本和響應延遲之間找到更優的平衡點。

從定位來看，Ling-2.6-flash主打低延遲、高吞吐和高頻呼叫，適用於資訊抽取、格式轉換、批處理以及Agent工作流中的輕量執行節點；Ling-2.6-1T則追求更高的能力密度，著力提升即時響應場景下單位輸出token的資訊量；Ring-2.6-1T聚焦複雜推理和Agent任務，強調長鏈路規劃、工具呼叫、程式碼執行及環境互動能力。這種分層設計反映出大模型落地正從通用對話向更細分的生產場景演進。

在架構層面，報告指出百靈2.6系列採用了混合線性注意力機制，將閃電注意力與多頭潛在注意力按7:1的比例結合，以此降低長上下文訓練和解碼過程中的計算開銷，同時壓縮鍵值快取成本。這一設計使得模型在處理超長文本時，注意力計算的複雜度從平方級降至線性級，為後續將上下文視窗擴充套件至256K奠定了基礎。

預訓練方面，團隊並未從零開始訓練萬億引數模型，而是在Ling-2.0已有約20T tokens訓練投入的基礎上進行架構遷移和繼續預訓練。整個遷移過程分為閃電注意力轉換、線性預熱、MLA轉換及MLA預熱四個階段，消耗約400B tokens。隨後，模型又經歷了約8T tokens的繼續預訓練和約1.2T tokens的中期訓練，逐步將上下文視窗從4K擴充套件至32K，最終達到256K。訓練資料中增強了數學、程式碼、智慧體語料、長上下文語料及多語言語料，其中智慧體語料覆蓋了500多個真實MCP環境和3000多個工具。

後訓練階段，Ling-2.6和Ring-2.6走向了不同的最佳化方向。Ling-2.6圍繞token效率展開工作，通過專家驅動的訓練路線、演化式思維鏈、動態長度懲罰和語義冗餘懲罰等手段，壓縮冗餘推理，力求用更少的輸出token給出高質量回答。報告稱，資料層面的處理讓模型平均輸出長度減少約200到300個token。Ring-2.6則面向長程Agent任務進行原生最佳化，其工具使用資料覆蓋倉庫級程式碼任務、移動端與網頁搜尋任務以及多步規劃工作流。團隊還提出了KPop演算法，以更穩定的方式進行MoE模型的Agentic強化學習訓練，並採用非同步RL將rollout採集與引數更新解耦，以支撐萬億引數規模下的長鏈路任務訓練。

評測結果顯示了這一系列模型在特定場景下的競爭力。Ling-2.6-1T在Artificial Analysis Intelligence Index中，以約16M輸出tokens取得約34分，接近GPT-5.4 Non-reasoning，並高於DeepSeek V3.2和上一代Ling-1T，體現出較高的token效率。Ring-2.6-1T在部分複雜推理和Agent任務中表現突出，其xhigh配置在ARC-AGI-V2上取得66.18分，高於Kimi-K2.6 Thinking和DeepSeek-V4-Pro Max；high配置在PinchBench上取得87.60分，高於GPT-5.4和Gemini-3.1-Pro，在ClawEval上取得63.82分，同樣高於前述幾個對比模型。

基礎設施方面，團隊通過AllGather-based上下文並行最佳化，使Lightning Attention在256K上下文長度下獲得約68%的端到端加速。非同步RL基礎設施在長序列場景下帶來超過80%的端到端效能提升。推理側，團隊將訓練階段積累的融合運算元適配到部署環境，並通過開源高效能運算元庫linghe，結合字首快取與多token生成等技術，提升了整體吞吐和互動穩定性。

這份技術報告的公開，為外界觀察國產萬億引數模型的技術細節提供了較為完整的視窗。從產業角度看，它反映出國內AI團隊在模型架構創新、長上下文效率、Agent原生訓練以及推理部署協同最佳化等方面的系統性探索。儘管報告也指出，Ling-2.6-flash在高複雜任務中的推理深度和工具呼叫可靠性仍受思考預算限制，長程Agent在異構執行環境中的可靠性有待提升，但模型開源與技術細節的透明化本身，有助於推動開源生態在真實應用能力上的持續進步。對於關注AI基礎設施與應用落地的投資者和從業者而言，這類技術報告提供了評估模型效率與成本邊界的重要參照。

螞蟻百靈公開萬億級模型技術報告，詳解三款開源模型架構

延伸閱讀

相關深度報道

相關每日新聞