智譜在 Hugging Face 平臺正式發佈其最新旗艦模型 GLM-5.2,參數規模達到 753B,採用 MIT 開源許可,無地域限制。該模型定位為長週期任務旗艦,在多項基準測試中展現出相較前代 GLM-5.1 的顯著提升。

GLM-5.2 最核心的突破在於首次實現了百萬 token 上下文窗口內的穩定運行。這意味著模型可以一次性處理相當於數部中長篇小說的文本量,而不會出現注意力衰減或輸出質量下降。對於需要跨長文檔進行推理、分析或生成的場景,這一能力至關重要。

在架構層面,智譜提出了名為 IndexShare 的新機制。該設計在每四層稀疏注意力層中複用相同的索引器,從而在百萬 token 上下文長度下將每 token 的浮點運算次數(FLOPs)降低了 2.9 倍。同時,GLM-5.2 改進了多 token 預測(MTP)層,使推測解碼的接受長度提升最多 20%,進一步優化了推理延遲。

基準測試數據勾勒出 GLM-5.2 的競爭力輪廓。在考驗極限推理能力的 HLE(人類最後考試)基準上,GLM-5.2 在純文本子集取得 40.5 分,較 GLM-5.1 的 31 分大幅提升;若允許使用工具,分數更升至 54.7。在數學推理方面,AIME 2026 達到 99.2 分,HMMT 兩項賽事分別取得 94.4 和 92.5 分。

編碼能力是本次升級的另一重點。在 SWE-bench Pro 真實世界軟件工程任務上,GLM-5.2 得分 62.1,超越 GLM-5.1 的 58.4 分。更具挑戰性的 FrontierSWE 基準中,GLM-5.2 的支配性得分從 GLM-5.1 的 30.5 躍升至 74.4,顯示出處理複雜代碼庫級任務的能力質變。在 Terminal Bench 2.1 終端操作基準上,GLM-5.2 使用 Terminus-2 框架取得 81.0 分,最佳報告配置下達到 82.7 分。

智能體能力方面,GLM-5.2 在 MCP-Atlas 公共測試集的 500 個任務上取得 76.8 分,在 Tool-Decathlon 工具使用基準上取得 48.2 分,均較前代有明顯進步。

GLM-5.2 支持多種主流部署框架,包括 SGLangvLLMTransformersKTransformersUnsloth,併兼容華為昇騰 NPU 平臺。模型權重已在 Hugging Face 上開放,用戶可通過 Z.ai API 平臺調用其服務。

從產業視角看,GLM-5.2 的發佈強化了開源大模型長上下文這一關鍵維度的競爭態勢。百萬 token 的穩定支持與 IndexShare 帶來的效率優化,意味著企業可以在更低的推理成本下構建需要處理海量上下文的 AI 應用,例如全代碼庫重構、超長文檔合規審查或跨多輪對話的深度智能體系統。MIT 許可的開放性也降低了商業集成的法律門檻。