Snowflake 首席執行官 Sridhar Ramaswamy 近期公佈的一項內部編程基準測試結果,將中國 AI 模型 GLM-5.2Anthropic 的旗艦模型 Claude Opus 4.7 置於同一競技場。結果顯示,儘管存在效率差距,但 GLM-5.2 在成本端展現出的顛覆性優勢,足以讓整個西方 AI 產業的估值邏輯面臨拷問。

測試圍繞 103 個編碼任務 展開,要求模型編寫能同時在 DuckDBSnowflake 平臺上運行的代碼。當每個任務給予模型三次嘗試機會時,GLM-5.2 與 Opus 4.7 的解題率幾乎打平,分別為 66%67%。然而,在首次嘗試準確率上,Opus 以 53.7% 明顯領先於 GLM 的 47.6%,表明中國模型的輸出穩定性仍有欠缺。

效率方面的差距更為顯著。GLM-5.2 平均每個任務需要 99 次 運行迭代,而 Opus 僅需 80 次。在整個測試過程中,GLM 消耗了約 8.6 億個 token,幾乎是 Opus 所消耗 4.39 億個 token 的兩倍。Ramaswamy 指出,GLM 的弱點在於過早放棄或過度檢查無關細節。在一個典型案例中,GLM 在 24 分鐘內發起了 411 次 工具調用,反覆檢查行數、分佈、空值和列類型,最終仍以三次嘗試全部失敗告終;而 Opus 僅用 49 次 調用、9 分鐘就解決了同一任務。

儘管如此,GLM-5.2 也展現出獨特優勢,尤其是在跨平臺代碼驗證的可靠性上。Ramaswamy 提到,正因如此,某些任務只有 GLM 能夠完成。Snowflake 團隊對該模型表現出濃厚興趣,並計劃將其提供給客戶使用。

真正令市場震動的,是隱藏在性能對比背後的價格鴻溝。根據智譜 AI 官方價目表,GLM-5.2 的輸入 token 單價為 1.40 美元/百萬 token,輸出 token 單價為 4.40 美元/百萬 token。相比之下,Claude Opus 4.7 的定價為輸入 5 美元、輸出 25 美元GPT-5.5 更是高達輸入 5 美元、輸出 30 美元。即便將 GLM 更高的 token 消耗量納入計算,其成本優勢依然巨大,輸出 token 價格僅為 Opus 的五分之一左右。

這一價差正在對 AnthropicOpenAI 形成真實的定價壓力,而且壓力點恰好落在兩者押注的核心用例——編程上。如果這種壓力導致營收增速放緩甚至萎縮,那麼本就飽受質疑的 AI 市場高估值將面臨嚴峻的壓力測試。OpenAI 和 Anthropic 的估值建立在營收持續快速增長的假設之上,而這些估值又與從數據中心到芯片訂單的數十億美元基礎設施投資緊密綁定。

從產業格局看,GLM-5.2 的表現並非孤例。它反映出中國 AI 模型正從單純追求 benchmark 跑分,轉向在真實企業場景中提供可用的、成本極具競爭力的替代方案。對於下游應用企業而言,當一款成本僅為五分之一、解題率幾乎持平的模型出現時,採購決策的天平可能發生傾斜。對於投資者而言,這提醒著西方 AI 實驗室的定價權並非牢不可破,其高估值敘事正面臨來自東方的實質性挑戰。