六月的AI圈上演了一齣充滿戲劇性的“開放與封閉”之爭。就在Anthropic因國家安全審查被迫關停其最強模型Fable 5和Mythos 5全球訪問後不久,中國AI公司智譜選擇在同一時間點——5點21分——宣佈全量開放旗下最強模型GLM-5.2,並直言“前沿智能屬於所有人”。這一時間上的巧合被外界解讀為對封閉路線的直接回應,也在開發者社區引發了廣泛討論。

GLM-5.2此次最引人注目的突破在於編程能力。在彙集全球百萬用戶盲測的代碼能力評估系統Code Arena上,該模型以1595分排名總榜第二,僅次於已不可用的Fable 5,在所有當前可訪問的模型中位列第一。獨立評測機構Artificial Analysis在其智能指數v4.1中給予GLM-5.2 51分的評定,將其置於GPT-5.5Opus 4.8之間,這也是開源模型首次進入這一性能區間。在更考驗工程能力的FrontierSWE長程編程基準上,GLM-5.2得分74.4,與Opus 4.8的75.1差距不到1個百分點,同時超越了GPT-5.5的72.6分。谷歌的Gemini則被擠出“御三家”之列,編程模型的第一陣營變為Claude、OpenAI和智譜三足鼎立。

除了單次輸出的準確性,GLM-5.2在長時間任務中的可靠性成為另一個關鍵升級。該模型將上下文窗口擴展至1M token,相當於可以一次性容納整個項目代碼庫、技術文檔和需求說明,並在處理過程中保持記憶連貫。據智譜官方披露,有評測團隊讓GLM-5.2獨立承接一個覆蓋網頁端、移動端和小程序的全棧應用開發任務,從開發、聯調、測試到打包上線全程自主完成,累計處理超過88萬tokens,幾乎用滿整個窗口,沒有出現因上下文不足而“失憶”的情況。這使得AI編程從“會寫一段代碼”進化到“能完成一段工程”。

值得關注的是,GLM-5.2在參數規模遠小於閉源競品的情況下實現了性能追趕。該模型採用MoE架構,總參數744B,活躍參數約40B,而Opus 4.8和GPT-5.5的參數規模保守估計在1-2萬億區間。在AA-Omniscience基準測試中,GLM-5.2的幻覺率僅為28%,相比之下GPT-5.5高達86%,Opus 4.8為36%,Fable 5為48%。面對知識邊界之外的問題,GLM-5.2更傾向於誠實承認不確定性,而非自信地生成錯誤答案。這表明更大的參數量和更長的推理時間並不必然帶來更好的判斷力。

成本方面,GLM-5.2的輸入價格約1.40美元/百萬token,輸出約4.40美元/百萬token,比Opus 4.8便宜約72%至82%。儘管相比前代GLM-5.1有所提價,但摩根大通在研報中指出,性能提升主要來自強化學習和後訓練優化,而非大規模增加參數量,客戶願意為“完成任務”而非“消耗token”付費。

GLM-5.2以MIT協議完全開源,模型權重可自由下載、部署和商用,上線首日即完成與華為昇騰平頭哥摩爾線程寒武紀等8大國產算力平臺的全適配。這意味著開發者可以在自有基礎設施上運行該模型,無需擔憂訪問權限被突然切斷。在Anthropic因監管壓力築起高牆的時刻,智譜選擇鋪路開放,市場也給出了積極回應——智譜在港股的市值此前已突破1萬億港元,年內漲幅超過1900%,成為中國首個萬億AI公司。

GLM-5.2並非沒有短板。它在最高難度的SWE-Marathon基準上得分13.0,與Opus 4.8的26.0仍有差距,且不具備多模態能力,推理速度也受限於算力基礎設施。但這些差距正在快速縮小。正如智譜在公告結尾所寫:“向前沿智能再近一步,為每一個人。AI的未來是開放的,它屬於所有人。”在2026年6月這個節點,AI編程的權力正在從少數閉源巨頭向全球開發者終端轉移,而中國開源模型已在這場轉移中佔據了關鍵席位。