智谱在 Hugging Face 平台正式发布其最新旗舰模型 GLM-5.2,参数规模达到 753B,采用 MIT 开源许可,无地域限制。该模型定位为长周期任务旗舰,在多项基准测试中展现出相较前代 GLM-5.1 的显著提升。
GLM-5.2 最核心的突破在于首次实现了百万 token 上下文窗口内的稳定运行。这意味着模型可以一次性处理相当于数部中长篇小说的文本量,而不会出现注意力衰减或输出质量下降。对于需要跨长文档进行推理、分析或生成的场景,这一能力至关重要。
在架构层面,智谱提出了名为 IndexShare 的新机制。该设计在每四层稀疏注意力层中复用相同的索引器,从而在百万 token 上下文长度下将每 token 的浮点运算次数(FLOPs)降低了 2.9 倍。同时,GLM-5.2 改进了多 token 预测(MTP)层,使推测解码的接受长度提升最多 20%,进一步优化了推理延迟。
基准测试数据勾勒出 GLM-5.2 的竞争力轮廓。在考验极限推理能力的 HLE(人类最后考试)基准上,GLM-5.2 在纯文本子集取得 40.5 分,较 GLM-5.1 的 31 分大幅提升;若允许使用工具,分数更升至 54.7。在数学推理方面,AIME 2026 达到 99.2 分,HMMT 两项赛事分别取得 94.4 和 92.5 分。
编码能力是本次升级的另一重点。在 SWE-bench Pro 真实世界软件工程任务上,GLM-5.2 得分 62.1,超越 GLM-5.1 的 58.4 分。更具挑战性的 FrontierSWE 基准中,GLM-5.2 的支配性得分从 GLM-5.1 的 30.5 跃升至 74.4,显示出处理复杂代码库级任务的能力质变。在 Terminal Bench 2.1 终端操作基准上,GLM-5.2 使用 Terminus-2 框架取得 81.0 分,最佳报告配置下达到 82.7 分。
智能体能力方面,GLM-5.2 在 MCP-Atlas 公共测试集的 500 个任务上取得 76.8 分,在 Tool-Decathlon 工具使用基准上取得 48.2 分,均较前代有明显进步。
GLM-5.2 支持多种主流部署框架,包括 SGLang、vLLM、Transformers、KTransformers 和 Unsloth,并兼容华为昇腾 NPU 平台。模型权重已在 Hugging Face 上开放,用户可通过 Z.ai API 平台调用其服务。
从产业视角看,GLM-5.2 的发布强化了开源大模型在长上下文这一关键维度的竞争态势。百万 token 的稳定支持与 IndexShare 带来的效率优化,意味着企业可以在更低的推理成本下构建需要处理海量上下文的 AI 应用,例如全代码库重构、超长文档合规审查或跨多轮对话的深度智能体系统。MIT 许可的开放性也降低了商业集成的法律门槛。