智谱发布旗舰模型 GLM-5.2：首次实现百万 token 稳定上下文

智谱 AI 近日通过 Hugging Face 平台正式发布了其新一代旗舰语言模型 GLM-5.2，模型参数高达 753B，并以 MIT 许可证完全开源，不设地域限制。这一发布标志着智谱在长周期任务处理能力上迈出了关键一步，其核心突破在于首次在百万 token 的上下文窗口上实现了稳定、可靠的表现，而此前这类超长上下文往往面临注意力衰减与性能不稳定的挑战。

从技术指标来看，GLM-5.2 在多个权威基准测试中展现出对前代 GLM-5.1 的全面超越。在推理能力方面，HLE 得分从 31 跃升至 40.5，CritPt 更是从 4.6 飙升至 20.9，显示出模型在复杂逻辑与批判性思维任务上的显著进步。编码能力同样大幅增强，SWE-bench Pro 从 58.4 提升至 62.1，FrontierSWE 更是从 30.5 翻倍至 74.4，而 SWE-Marathon 这类长周期编码任务则从 1.0 提升至 13.0，尽管绝对分数仍不高，但相对增幅巨大，印证了其对长周期任务的针对性优化。

支撑这些性能提升的是一项名为 IndexShare 的新架构设计。该技术让每四个稀疏注意力层共享同一个索引器，从而在百万 token 的上下文长度下，将每个 token 所需的浮点运算量降低了 2.9 倍。这意味着模型在处理超长文本时，计算效率得到显著优化，有助于在实际部署中控制推理成本。此外，GLM-5.2 还改进了多 token 预测层，使推测解码的接受长度最高提升了 20%，进一步加快了生成速度。

GLM-5.2 的发布恰逢大模型竞争进入长上下文与智能体能力比拼的阶段。当前，包括 OpenAI、Anthropic、谷歌、阿里等在内的主要玩家都在推动模型处理更长文本、执行更复杂的多步骤任务。智谱此次将百万 token 稳定上下文与 MIT 开源协议结合，既展示了其技术实力，也为开发者社区提供了一个可自由商用、无地域限制的强有力工具。这对于需要处理大型代码库、长文档分析或复杂智能体工作流的应用场景尤为关键。

从产业角度看，GLM-5.2 的开源策略可能对算力市场产生双重影响。一方面，模型参数高达 753B，本地部署需要可观的 GPU 资源，这将直接拉动对高端 AI 芯片与服务器的需求；另一方面，IndexShare 等效率优化技术又在一定程度上降低了单位 token 的计算成本，使得大规模推理变得更加经济。智谱同时提供了通过 Z.ai API 平台访问模型的方式，为不同规模的用户提供了灵活的选择。

在部署生态上，GLM-5.2 已获得多个主流框架的支持，包括 SGLang、vLLM、Transformers、KTransformers 以及 Unsloth，甚至支持在华为昇腾 NPU 平台上通过 vLLM-Ascend 等框架进行推理。这种广泛的框架兼容性降低了开发者的迁移门槛，有助于模型快速在社区中扩散。

值得注意的是，GLM-5.2 在智能体相关基准上也表现不俗。在 MCP-Atlas 公开集上得分 76.8，Tool-Decathlon 得分 48.2，显示出其在工具调用与多步骤任务执行上的潜力。这与智谱在技术报告中强调的“从氛围编码到智能体工程”的演进方向一致，表明模型正从单纯的文本生成向更复杂的自主任务执行迈进。

总体而言，GLM-5.2 的发布不仅是智谱在模型能力上的一次升级，更是在开源生态与长周期任务处理上的一次重要布局。它将百万 token 稳定上下文、高效推理架构与宽松的开源许可相结合，为 AI 应用开发者提供了新的基础选项，也可能进一步加剧大模型在长上下文与智能体赛道的竞争烈度。

智谱发布旗舰模型 GLM-5.2：首次实现百万 token 稳定上下文

延伸阅读

相关深度报道

相关每日新闻