智譜於6月17日正式發佈並開源了新一代旗艦大模型GLM-5.2,憑藉在多個權威評測中的突出表現,迅速引發國內外開發者社區的廣泛關注。在大模型盲測平臺Arena.ai的編程專項評估系統Code Arena上,GLM-5.2斬獲1595分,位居總榜第二,僅次於當前已不可用的Fable 5,並在所有實際可訪問的模型中排名第一。在衡量超長程、開放式、高難度軟件工程任務的FrontierSWE基準中,GLM-5.2同樣表現強勁,排名第三,僅落後於Opus 4.8和Fable 5。此外,在專門評估模型設計品味與審美的Design Arena上,該模型更是取得了全球第一的成績。

這些評測結果並非孤立的數字。在開發者實際體驗中,GLM-5.2的編程能力被多位用戶評價為“國內第一款達到Opus級體感的模型”,海外用戶也反饋其與Fable 5的差距遠小於預期。隨著Fable 5因故無法正常使用,GLM-5.2的快速追趕讓部分觀察者認為,AnthropicOpenAI與智譜三家構成的“編程模型頭部梯隊”格局正在成形。

GLM-5.2的核心突破之一在於其100萬token的超長上下文窗口,並且智譜通過一系列工程優化,使這一能力在實際任務中真正可用。在智東西進行的實測中,GLM-5.2被要求從零開發一款《文明》風格的策略遊戲,歷經多個版本迭代,總計消耗約87萬token的上下文。在這一過程中,模型不僅自主加入了戰鬥系統、科技樹、城市經濟等複雜子系統,還能在上下文接近極限時,精準定位出從初版代碼延續至今的隱藏bug,並完整覆盤了全部16個bug的成因與解法。這種跨越大段代碼與長時間對話的記憶連貫性,是此前上下文窗口較小的模型難以實現的。

在另一項長文本理解測試中,GLM-5.2一次性讀取了13份總時長超30小時、文本量約25萬詞的播客實錄,併成功完成了跨期觀點追蹤與主題聚類任務。它準確梳理出“Scaling Law是否遇到瓶頸”這一話題在多位嘉賓之間跨越數週的觀點演進鏈,並識別出不同時期討論焦點的變化。相比之下,上下文窗口為20萬token的GLM-5.1在處理同一任務時,輸出更接近逐文件摘要的拼接,難以提煉跨文件的邏輯關聯與隱性矛盾。

支撐百萬上下文工程化落地的是一套從模型架構到推理基礎設施的協同優化方案。智譜在GLM-5.2的多步推測解碼層引入了IndexShare與KVShare組合方案,通過複用索引計算結果來降低重複注意力計算的開銷。在基礎設施層面,LayerSplit技術將KV緩存按層拆分到不同GPU上,減少單卡顯存佔用,並設計了KV緩存廣播與索引器計算的重疊機制以壓縮通信延遲。此外,HiSparse分層內存系統能主動將非活躍KV緩存卸載至主機內存,同時在GPU高帶寬內存中保留熱點緩存區,從而在長序列場景下顯著提升吞吐量。實驗數據顯示,在32K至1024K的請求長度區間內,GLM-5.2的系統吞吐量較上一代提升了3%至192%,且上下文越長收益越明顯。

GLM-5.2的發佈也體現了國產算力生態的適配進展。智譜表示,該模型已在Day 0完成與華為昇騰、平頭哥、摩爾線程、寒武紀、崑崙芯、沐曦、海光、壁仞等多個國產算力平臺的推理適配。模型還新增了High與Max兩檔思考強度設定,允許開發者在複雜編碼任務中啟用更高檔位以確保架構級邏輯的嚴謹性。

從產業視角看,GLM-5.2的意義在於它將開源模型的編程能力推至與頂尖閉源模型可比較的水平,同時以100萬token的實用化上下文窗口,解鎖了此前因記憶容量受限而難以完成的超長程開發與信息整合任務。當模型既能持續工作數小時、又能記住過程中的所有約束與細節,它就從“對話式工具”向“執行式協作夥伴”邁出了實質性一步。對於關注AI應用落地的投資者與從業者而言,這種能力邊界的拓展可能重塑開發者工具鏈的選型邏輯,並進一步加劇模型層在編程這一高價值場景中的競爭。