一場只有五名選手的比賽,在 6 月悄悄決出了名次。裁判是 Claude Opus 4.7,賽題是一份真實工程任務,選手是 DeepSeek V4 Pro、Kimi K2.6、Qwen 3.7 Max、GLM 5.1 和 MiniMax M3。結果爆冷:綜合分排第一的不是用戶最多的,也不是估值最高的,而是 MiniMax M3,85.3 分;而 DeepSeek V4 Pro 綜合只排第四、78.6 分,卻憑全場最低的調用成本把「性價比之王」的名頭收入囊中 [1]

這張成績單之所以值得停下來看,是因為它量的東西,和外界習慣用來給國產大模型排座次的東西,完全不是一回事。

同一周,三款旗艦級模型幾乎同時把宣傳口徑擰向了同一件事。MiniMax M3 開源,總參數約 428B、激活約 23B,主打「前沿 Coding、1M 超長上下文、原生多模態」,官方拿出的招牌演示是:讓它連續跑近 12 小時,全程無人干預,自己產出 18 次代碼提交和 23 張實驗圖表,把一組核心實驗跑通 [2][3][4]。GLM-5.2 用 744B 的混合專家架構、全程華為昇騰芯片訓練、零英偉達卡,登上了開源權重榜首,a16z 聯合創始人 Marc Andreessen 給它的評語是「首個能無妥協匹敵美國大廠公開模型的中國 AI」[5][6]。DeepSeek 則官宣 V4 正式版 7 月中旬上線,同時把 API 定價改成峰谷制——高峰時段價格翻倍 [7]

三家賣的不是參數榜上多幾分,是同一種能力:扛得住一個跨小時、多步驟的長任務而不跑偏。這把尺子,正在把一張你以為已經排定的地圖,重新畫一遍。

你以為的座次,是用什麼量出來的

先把舊地圖攤開。

給國產大模型排名,坊間最順手的三把尺子,一是用戶量。豆包到 2026 年 5 月擁有 3.3 億用戶,每天處理 120 萬億 token,是中國裝機量最大的 AI 助手,火山引擎在後面供著算力。通義千問同期也坐擁數以億計的用戶,還手握全球下載量最大的開源權重家族之一。按這把尺子,字節和阿里是當之無愧的頭名。

二是估值與市值。2026 年上半年,港股開出「大模型雙雄」:智譜 1 月 8 日在港交所上市,是中國首家完成 IPO 的主要大模型公司;MiniMax 隔天 1 月 9 日跟上。到 6 月下旬,智譜市值突破萬億港元,成了國內第一家邁進萬億港元的大模型公司,上市短短幾個月市值漲了約二十倍 [10]。Kimi 沒上市,但一級市場把它抬到了投前 315 億美元的估值,收入曲線被投資人說成有 Anthropic 早期的影子 [9]。按這把尺子,頭名換成了智譜。

三是榜單分數。誰在 SWE-bench 上高一個百分點、誰在某項評測上壓過 GPT-5.5,一度是各家發佈會的高潮。

三把尺子各有各的頭名,本身就說明它們量的不是同一樣東西。用戶量量的是分發,估值量的是資本的預期,榜單分量的是某一道切片題的瞬時表現。它們都真實,也都不完整——它們回答不了那個越來越要緊的問題:把一個真實的活兒丟給它,它能不能自己幹完。

換一把尺子:什麼叫「會寫規劃」

「會寫規劃」這四個字容易被當成一句虛話,得先釘死它的意思。

它不是單輪問答答得漂亮。你問一句、它答一句、答對了,那是短跑。寫規劃是長跑:給一個目標,模型得自己把它拆成幾十步,在一條很長的上下文裡記住自己走到哪、前面定過什麼、哪些還沒做;中間某一步跑錯了,它要能發現、回頭改,而不是帶著錯誤一路狂奔;這樣連續跑上幾個小時,還不漂移、不失憶、不自我矛盾。

MiniMax 那個「12 小時」演示,賣的正是這個。近 12 小時裡沒有人接管,18 次提交意味著它自己判斷「這一段可以定版了」十八次,23 張圖表意味著它反覆在驗證、在看結果、在決定下一步——這是一個執行者的畫像,不是一個應答機的畫像。它靠自研的稀疏注意力把 1M 上下文的推理成本壓下去,長跨度才跑得起 [4]。DeepSeek 去年 12 月發的 V3.2,在 SWE-bench、Terminal-bench 這類考「改真實代碼庫」的基準上,官方稱較上一代大幅提升,量的也是同一件事:給你一個倉庫、一個 issue,你能不能真的把它修好。GLM-5.2 乾脆把宣傳重心從跑分挪開,改講「Coding 與長程任務」,配一套價格遠低於海外閉源旗艦的訂閱方案 [5]

這把尺子的刻度,和用戶量、估值、單題榜單都不重合。一個模型可以有三億用戶、卻答不好一個跨小時的工程任務;也可以沒幾個 C 端用戶,卻是開發者手裡最趁手的長任務引擎。橘生淮南則為橘,生於淮北則為枳——同一批模型,換一方水土量,長出來的排名是另一個樣子。

用新尺子重排:誰在拼、誰在分發、誰已離場

換上這把尺子,九家的位置重新落定,分出三層。

第一層是真在拼長任務的前沿。DeepSeek 是最沒有懸念的一個:它出自量化基金幻方,創始人梁文鋒在美國對華芯片限制收緊前,就靠量化生意的利潤屯下大批英偉達 A100,R1 又用相對有限的算力做出了被業界稱為「轉折點」的推理性能。到 V4 預覽,它給出 1.6 萬億參數的 Pro 和 2840 億參數的 Flash、百萬 token 上下文,本週又把正式版和峰谷定價一起端上桌 [7][8]。Kimi 的路線更是從頭就壓在「長」上——楊植麟給自己定的三階段 AGI 目標,第一階段就是「實現長上下文」;2023 年 10 月首款 Kimi 能處理 20 萬漢字,一路做到 K2 Thinking——這個萬億參數、激活僅 32B 的 MoE 模型,訓練成本約 460 萬美元,卻在 Humanity’s Last Exam 等硬基準上壓過了 GPT-5 [14]。智譜靠 GLM-5.2 登頂開源權重榜、還是全華為昇騰訓出來的,把「長程任務」寫進了發佈詞 [5][6]。通義千問手握全球下載量最大的開源權重家族之一,也把 Agent 與工具調用當成新一代的主攻方向。MiniMax 則用 M3 的實測冠軍,給自己在這一層掙了個座位 [1]

第二層是分發王。豆包 3.3 億用戶、每日 120 萬億 token 的體量,放在任何一張按規模排的榜上都是頭名。但它贏的是入口——把 AI 塞進億級國民應用的分發能力,是字節的看家本領,不是長任務執行的深度。它同期給豆包加了訂閱分層,走的是消費產品的商業化路子。付錢看它用戶最多、和付錢看它活兒幹得最好,是兩筆不同的賬——這一層量的是觸達,不是規劃。

第三層,已經離開前沿賽道的。這一層最能說明新尺子的鋒利,因為它們當年都在牌桌上。百川智能,搜狗創始人王小川 2023 年拉起的隊伍,「AI 六小虎」之一,2025 年 3 月宣佈重組、把重心整體搬去醫療健康——不再和別人比誰的長任務跑得遠。零一萬物更直接:李開復的團隊曾用遠少於對手的算力訓出對標模型,Yi-Coder 支持 52 種編程語言、128k 上下文,是認真做過編程模型的;但 2025 年前後它逐步收縮大模型預訓練,轉去賣企業級 AI 解決方案。騰訊混元則退成了另一種形態——它有 Transformer-Mamba 架構的 T1 推理模型,但主要活在騰訊的企業和內部生態裡,不出來搶「誰的規劃能力更強」這個頭銜。

三家的退場方式各不相同:轉行、轉售、內嵌。共同點是,用「會不會寫規劃」這把尺子一量,它們都已經不在這條跑道上了。而用「曾經融了多少錢、拿過什麼頭銜」去量,它們看著還在牌桌邊——這正是舊尺子會騙人的地方。

為什麼九家不約而同,轉向了「寫規劃」

九家在同一個季度把口徑擰向同一件事,不像巧合,更像被四股力一起推到了這裡。

第一股來自應用側。agentic 編程被公認是當下最接近「殺手級」的落地場景,而這個場景的能力標準,是海外產品先定下來的——從 Cursor 到 Claude Code 再到 Codex,是它們先教會市場「一個模型應該能自己讀代碼庫、自己改、自己跑測試」。國產模型這一輪集體加碼 Coding 和 Agent,本質是在追一條別人已經畫好的能力曲線:標準不在自己手裡,你只能先證明自己爬得上去。

第二股是 token 經濟學。一個 Agent 長任務,一次要吃掉的 token 遠多於一句問答——它要讀整個倉庫、要反覆推理、要多輪調工具。吞得多,單位經濟反而更好看,這就解釋了本週一連串漲價:DeepSeek V4 把高峰時段 API 價格調成平時的兩倍 [7][8],智譜一季度也把 API 價格上調約 83%、調用量卻漲了約四倍 [10]。Kimi 更把這條路走到了頭——B 端負責人黃震昕把漲價歸到算力成本上漲,同時給出一個更要緊的數字:Kimi 的 API 收入已佔整體七成以上,海外付費用戶和 API 收入都漲了約四倍 [11][9]。當收入的大頭從 C 端訂閱挪到 API 調用,誰能扛住長任務、誰就能把 token 賣得更多、更貴。這門生意的重心,正從「租算力」滑向「按 token 分潤」。

第三股是開源即分發。GLM、Kimi、DeepSeek 都把權重開源出去——對沒有豆包那種國民級入口的公司,把模型免費放到 Hugging Face,讓全世界的開發者拿去嵌進自己的 Agent,本身就是最省錢的分發。GLM-5.2 開源當天就在華為昇騰、寒武紀、摩爾線程等一串國產算力平臺上做到即插即用 [6],這是在用開源換生態位。

第四股是資本敘事。智譜萬億港元、MiniMax 從 4000 億高點回撤超 60%、兩者估值差超過 7 倍 [10],Kimi 315 億美元 [9]——一級二級市場給出的這些數字,背後押的正是「誰的 Agent、誰的規劃能力更值錢」的預期。可估值鴻溝和生意的厚度並不同步:智譜、MiniMax 2025 年收入分別約 7.24 億元和 5.6 億元,差距不到 1.3 倍,卻撐起了 7 倍的估值落差 [10]。港股這邊,智譜等五家還在推進回 A 股上市,而 A 股上半年 IPO 募資已達 953.63 億元 [13],資本的水位在抬。「會寫規劃」於是成了同時講給用戶和講給投資人的故事。只是鈦媒體已經提前敲了警鐘:智譜與 MiniMax 之間的定位敘事差異,遲早要面臨市場的修正——今天的估值分化,未必是終局 [12]

四股力疊加,指向同一個結論:轉向長任務不是九家各自的靈光一閃,是這門生意的物理走向。

新尺子最難的一點,恰恰是它量不準自己

把座次重排完,還剩一個別扭之處值得挑明。

「會寫規劃」這件事,偏偏最難用一張榜單證明。單題評測量的是一次答得對不對,可長任務的質量只在長跨度裡才顯形——一個模型能不能連跑 12 小時不崩,你沒讓它跑滿 12 小時就不知道。這意味著這一層的排名會比參數榜更滑、更快過期:MiniMax M3 這周是冠軍,下週換一道更長、更刁的真實任務,名次就可能重洗。舊尺子量出來的座次相對穩,是因為用戶量和估值變得慢;新尺子量出來的座次天生不穩,因為它量的是一種要在時間裡展開、才看得見的能力。

更值得記下的是另一重:這是國產大模型第一次,在一項由「應用產品」而非「論文和榜單」定義的能力上,直接對標海外。過去比的是誰的論文指標漂亮、誰在某個 benchmark 上登頂,那是學術定義的戰場;這一次比的是誰能在真實工程任務裡當好一個自主執行者,標準是 Cursor、Claude Code、Codex 這些產品在市場上一寸寸磨出來的。這既是機會——貼著真實需求走,做出來的東西馬上有人付費;也是軟肋——你追的是別人握著的曲線,能力的定義權、什麼算「好」的裁量權,都還不在自己手裡。

更微妙的是這條學習曲線的起點。2026 年 2 月,Anthropic 公開點名,指控 DeepSeek、MiniMax、月之暗面用兩萬多個虛假賬戶、累計超過 1600 萬次調用,對 Claude 做「工業級蒸餾」;其中 MiniMax 的調用量最大、超過 1300 萬次,據稱主要衝著 Agent 編程與工具調用而去——正是它今天賴以奪冠的那項能力 [15]。這項指控真偽尚無定論,馬斯克等人反唇相譏,說 Anthropic 自己的訓練數據也來路不清;但它至少戳出一個尷尬:這一層最前沿的選手,被指連「怎麼寫好規劃」都是跟 Claude 學來的。

那場五選一的實測,請來當裁判的,正是 Claude Opus 4.7。這個細節比冠軍是誰更耐人尋味:連給國產模型的長任務打分,用的都還是海外模型的尺子。換尺子重排出的這張新地圖,最前沿的那一層跑得越快,越會撞上同一個問題——尺子,是誰的。