Snowflake 首席执行官 Sridhar Ramaswamy 近期公布的一项内部编程基准测试结果,将中国 AI 模型 GLM-5.2Anthropic 的旗舰模型 Claude Opus 4.7 置于同一竞技场。结果显示,尽管存在效率差距,但 GLM-5.2 在成本端展现出的颠覆性优势,足以让整个西方 AI 产业的估值逻辑面临拷问。

测试围绕 103 个编码任务 展开,要求模型编写能同时在 DuckDBSnowflake 平台上运行的代码。当每个任务给予模型三次尝试机会时,GLM-5.2 与 Opus 4.7 的解题率几乎打平,分别为 66%67%。然而,在首次尝试准确率上,Opus 以 53.7% 明显领先于 GLM 的 47.6%,表明中国模型的输出稳定性仍有欠缺。

效率方面的差距更为显著。GLM-5.2 平均每个任务需要 99 次 运行迭代,而 Opus 仅需 80 次。在整个测试过程中,GLM 消耗了约 8.6 亿个 token,几乎是 Opus 所消耗 4.39 亿个 token 的两倍。Ramaswamy 指出,GLM 的弱点在于过早放弃或过度检查无关细节。在一个典型案例中,GLM 在 24 分钟内发起了 411 次 工具调用,反复检查行数、分布、空值和列类型,最终仍以三次尝试全部失败告终;而 Opus 仅用 49 次 调用、9 分钟就解决了同一任务。

尽管如此,GLM-5.2 也展现出独特优势,尤其是在跨平台代码验证的可靠性上。Ramaswamy 提到,正因如此,某些任务只有 GLM 能够完成。Snowflake 团队对该模型表现出浓厚兴趣,并计划将其提供给客户使用。

真正令市场震动的,是隐藏在性能对比背后的价格鸿沟。根据智谱 AI 官方价目表,GLM-5.2 的输入 token 单价为 1.40 美元/百万 token,输出 token 单价为 4.40 美元/百万 token。相比之下,Claude Opus 4.7 的定价为输入 5 美元、输出 25 美元GPT-5.5 更是高达输入 5 美元、输出 30 美元。即便将 GLM 更高的 token 消耗量纳入计算,其成本优势依然巨大,输出 token 价格仅为 Opus 的五分之一左右。

这一价差正在对 AnthropicOpenAI 形成真实的定价压力,而且压力点恰好落在两者押注的核心用例——编程上。如果这种压力导致营收增速放缓甚至萎缩,那么本就饱受质疑的 AI 市场高估值将面临严峻的压力测试。OpenAI 和 Anthropic 的估值建立在营收持续快速增长的假设之上,而这些估值又与从数据中心到芯片订单的数十亿美元基础设施投资紧密绑定。

从产业格局看,GLM-5.2 的表现并非孤例。它反映出中国 AI 模型正从单纯追求 benchmark 跑分,转向在真实企业场景中提供可用的、成本极具竞争力的替代方案。对于下游应用企业而言,当一款成本仅为五分之一、解题率几乎持平的模型出现时,采购决策的天平可能发生倾斜。对于投资者而言,这提醒着西方 AI 实验室的定价权并非牢不可破,其高估值叙事正面临来自东方的实质性挑战。