智谱于6月17日正式发布并开源了新一代旗舰大模型GLM-5.2,凭借在多个权威评测中的突出表现,迅速引发国内外开发者社区的广泛关注。在大模型盲测平台Arena.ai的编程专项评估系统Code Arena上,GLM-5.2斩获1595分,位居总榜第二,仅次于当前已不可用的Fable 5,并在所有实际可访问的模型中排名第一。在衡量超长程、开放式、高难度软件工程任务的FrontierSWE基准中,GLM-5.2同样表现强劲,排名第三,仅落后于Opus 4.8和Fable 5。此外,在专门评估模型设计品味与审美的Design Arena上,该模型更是取得了全球第一的成绩。

这些评测结果并非孤立的数字。在开发者实际体验中,GLM-5.2的编程能力被多位用户评价为“国内第一款达到Opus级体感的模型”,海外用户也反馈其与Fable 5的差距远小于预期。随着Fable 5因故无法正常使用,GLM-5.2的快速追赶让部分观察者认为,AnthropicOpenAI与智谱三家构成的“编程模型头部梯队”格局正在成形。

GLM-5.2的核心突破之一在于其100万token的超长上下文窗口,并且智谱通过一系列工程优化,使这一能力在实际任务中真正可用。在智东西进行的实测中,GLM-5.2被要求从零开发一款《文明》风格的策略游戏,历经多个版本迭代,总计消耗约87万token的上下文。在这一过程中,模型不仅自主加入了战斗系统、科技树、城市经济等复杂子系统,还能在上下文接近极限时,精准定位出从初版代码延续至今的隐藏bug,并完整复盘了全部16个bug的成因与解法。这种跨越大段代码与长时间对话的记忆连贯性,是此前上下文窗口较小的模型难以实现的。

在另一项长文本理解测试中,GLM-5.2一次性读取了13份总时长超30小时、文本量约25万词的播客实录,并成功完成了跨期观点追踪与主题聚类任务。它准确梳理出“Scaling Law是否遇到瓶颈”这一话题在多位嘉宾之间跨越数周的观点演进链,并识别出不同时期讨论焦点的变化。相比之下,上下文窗口为20万token的GLM-5.1在处理同一任务时,输出更接近逐文件摘要的拼接,难以提炼跨文件的逻辑关联与隐性矛盾。

支撑百万上下文工程化落地的是一套从模型架构到推理基础设施的协同优化方案。智谱在GLM-5.2的多步推测解码层引入了IndexShare与KVShare组合方案,通过复用索引计算结果来降低重复注意力计算的开销。在基础设施层面,LayerSplit技术将KV缓存按层拆分到不同GPU上,减少单卡显存占用,并设计了KV缓存广播与索引器计算的重叠机制以压缩通信延迟。此外,HiSparse分层内存系统能主动将非活跃KV缓存卸载至主机内存,同时在GPU高带宽内存中保留热点缓存区,从而在长序列场景下显著提升吞吐量。实验数据显示,在32K至1024K的请求长度区间内,GLM-5.2的系统吞吐量较上一代提升了3%至192%,且上下文越长收益越明显。

GLM-5.2的发布也体现了国产算力生态的适配进展。智谱表示,该模型已在Day 0完成与华为昇腾、平头哥、摩尔线程、寒武纪、昆仑芯、沐曦、海光、壁仞等多个国产算力平台的推理适配。模型还新增了High与Max两档思考强度设定,允许开发者在复杂编码任务中启用更高档位以确保架构级逻辑的严谨性。

从产业视角看,GLM-5.2的意义在于它将开源模型的编程能力推至与顶尖闭源模型可比较的水平,同时以100万token的实用化上下文窗口,解锁了此前因记忆容量受限而难以完成的超长程开发与信息整合任务。当模型既能持续工作数小时、又能记住过程中的所有约束与细节,它就从“对话式工具”向“执行式协作伙伴”迈出了实质性一步。对于关注AI应用落地的投资者与从业者而言,这种能力边界的拓展可能重塑开发者工具链的选型逻辑,并进一步加剧模型层在编程这一高价值场景中的竞争。