國產大模型說的「會寫規劃」到底指什麼？

不是單輪問答答得對，而是長時程 agentic 執行：把一個目標拆成多步、跨長上下文維持狀態、某一步失敗能自我回修、連續跑幾小時不漂移。MiniMax 讓 M3 連續運行近 12 小時，全程自主產出 18 次代碼提交與 23 張實驗圖表，是這類能力的一個樣本。

本週三款旗艦模型分別強在哪？

MiniMax M3 總參數約 428B、激活約 23B、1M 上下文，在一場五款國產模型的編程實測裡以綜合 85.3 分奪冠；GLM-5.2 用 744B 的混合專家架構、全華為昇騰芯片訓練，登頂開源權重榜；DeepSeek V4 將於 7 月中旬上線正式版，V4 預覽已給到 1.6 萬億參數的 Pro 與百萬 token 上下文。

智譜和 MiniMax 的估值為什麼差這麼多？

6 月下旬智譜市值突破萬億港元，成為國內首家邁入萬億港元的大模型公司；MiniMax 則從 4000 億港元的高點回撤超過 60%，兩者估值差距超過 7 倍。但兩家 2025 年收入分別約 7.24 億元與 5.6 億元、差距不到 1.3 倍，估值鴻溝遠大於收入鴻溝，鈦媒體因此提示這一敘事差異遲早要被市場修正。

豆包用戶最多，為什麼不算在前沿梯隊？

到 2026 年 5 月豆包擁有 3.3 億用戶、每日處理 120 萬億 token，贏在消費入口與分發；這與「能不能扛住跨小時長任務」是兩個不同的遊戲。用新尺子量，分發規模不直接等於長任務執行能力。

為什麼 DeepSeek、Kimi 都在給 API 漲價？

Agent 長任務一次要吞掉更多 token，單位經濟隨之改善，算力成本也在上漲。DeepSeek V4 正式版將引入峰谷定價，高峰時段 API 價格是平時的 2 倍；Kimi 的 API 收入已佔整體七成以上，其 B 端負責人黃震昕把漲價歸因於算力成本上漲。

換一把尺子：當「會寫規劃」成為國產大模型的新分水嶺 · 深度報道

一場只有五名選手的比賽，在 6 月悄悄決出了名次。裁判是 Claude Opus 4.7，賽題是一份真實工程任務，選手是 DeepSeek V4 Pro、Kimi K2.6、Qwen 3.7 Max、GLM 5.1 和 MiniMax M3。結果爆冷：綜合分排第一的不是用戶最多的，也不是估值最高的，而是 MiniMax M3，85.3 分；而 DeepSeek V4 Pro 綜合只排第四、78.6 分，卻憑全場最低的調用成本把「性價比之王」的名頭收入囊中 ^[1]。

這張成績單之所以值得停下來看，是因為它量的東西，和外界習慣用來給國產大模型排座次的東西，完全不是一回事。

同一周，三款旗艦級模型幾乎同時把宣傳口徑擰向了同一件事。MiniMax M3 開源，總參數約 428B、激活約 23B，主打「前沿 Coding、1M 超長上下文、原生多模態」，官方拿出的招牌演示是：讓它連續跑近 12 小時，全程無人干預，自己產出 18 次代碼提交和 23 張實驗圖表，把一組核心實驗跑通 ^[2]^[3]^[4]。GLM-5.2 用 744B 的混合專家架構、全程華為昇騰芯片訓練、零英偉達卡，登上了開源權重榜首，a16z 聯合創始人 Marc Andreessen 給它的評語是「首個能無妥協匹敵美國大廠公開模型的中國 AI」^[5]^[6]。DeepSeek 則官宣 V4 正式版 7 月中旬上線，同時把 API 定價改成峰谷制——高峰時段價格翻倍 ^[7]。

三家賣的不是參數榜上多幾分，是同一種能力：扛得住一個跨小時、多步驟的長任務而不跑偏。這把尺子，正在把一張你以為已經排定的地圖，重新畫一遍。

你以為的座次，是用什麼量出來的

先把舊地圖攤開。

給國產大模型排名，坊間最順手的三把尺子，一是用戶量。豆包到 2026 年 5 月擁有 3.3 億用戶，每天處理 120 萬億 token，是中國裝機量最大的 AI 助手，火山引擎在後面供著算力。通義千問同期也坐擁數以億計的用戶，還手握全球下載量最大的開源權重家族之一。按這把尺子，字節和阿里是當之無愧的頭名。

二是估值與市值。2026 年上半年，港股開出「大模型雙雄」：智譜 1 月 8 日在港交所上市，是中國首家完成 IPO 的主要大模型公司；MiniMax 隔天 1 月 9 日跟上。到 6 月下旬，智譜市值突破萬億港元，成了國內第一家邁進萬億港元的大模型公司，上市短短幾個月市值漲了約二十倍 ^[10]。Kimi 沒上市，但一級市場把它抬到了投前 315 億美元的估值，收入曲線被投資人說成有 Anthropic 早期的影子 ^[9]。按這把尺子，頭名換成了智譜。

三是榜單分數。誰在 SWE-bench 上高一個百分點、誰在某項評測上壓過 GPT-5.5，一度是各家發佈會的高潮。

三把尺子各有各的頭名，本身就說明它們量的不是同一樣東西。用戶量量的是分發，估值量的是資本的預期，榜單分量的是某一道切片題的瞬時表現。它們都真實，也都不完整——它們回答不了那個越來越要緊的問題：把一個真實的活兒丟給它，它能不能自己幹完。

換一把尺子：什麼叫「會寫規劃」

「會寫規劃」這四個字容易被當成一句虛話，得先釘死它的意思。

它不是單輪問答答得漂亮。你問一句、它答一句、答對了，那是短跑。寫規劃是長跑：給一個目標，模型得自己把它拆成幾十步，在一條很長的上下文裡記住自己走到哪、前面定過什麼、哪些還沒做；中間某一步跑錯了，它要能發現、回頭改，而不是帶著錯誤一路狂奔；這樣連續跑上幾個小時，還不漂移、不失憶、不自我矛盾。

MiniMax 那個「12 小時」演示，賣的正是這個。近 12 小時裡沒有人接管，18 次提交意味著它自己判斷「這一段可以定版了」十八次，23 張圖表意味著它反覆在驗證、在看結果、在決定下一步——這是一個執行者的畫像，不是一個應答機的畫像。它靠自研的稀疏注意力把 1M 上下文的推理成本壓下去，長跨度才跑得起 ^[4]。DeepSeek 去年 12 月發的 V3.2，在 SWE-bench、Terminal-bench 這類考「改真實代碼庫」的基準上，官方稱較上一代大幅提升，量的也是同一件事：給你一個倉庫、一個 issue，你能不能真的把它修好。GLM-5.2 乾脆把宣傳重心從跑分挪開，改講「Coding 與長程任務」，配一套價格遠低於海外閉源旗艦的訂閱方案 ^[5]。

這把尺子的刻度，和用戶量、估值、單題榜單都不重合。一個模型可以有三億用戶、卻答不好一個跨小時的工程任務；也可以沒幾個 C 端用戶，卻是開發者手裡最趁手的長任務引擎。橘生淮南則為橘，生於淮北則為枳——同一批模型，換一方水土量，長出來的排名是另一個樣子。

用新尺子重排：誰在拼、誰在分發、誰已離場

換上這把尺子，九家的位置重新落定，分出三層。

第一層是真在拼長任務的前沿。DeepSeek 是最沒有懸念的一個：它出自量化基金幻方，創始人梁文鋒在美國對華芯片限制收緊前，就靠量化生意的利潤屯下大批英偉達 A100，R1 又用相對有限的算力做出了被業界稱為「轉折點」的推理性能。到 V4 預覽，它給出 1.6 萬億參數的 Pro 和 2840 億參數的 Flash、百萬 token 上下文，本週又把正式版和峰谷定價一起端上桌 ^[7]^[8]。Kimi 的路線更是從頭就壓在「長」上——楊植麟給自己定的三階段 AGI 目標，第一階段就是「實現長上下文」；2023 年 10 月首款 Kimi 能處理 20 萬漢字，一路做到 K2 Thinking——這個萬億參數、激活僅 32B 的 MoE 模型，訓練成本約 460 萬美元，卻在 Humanity’s Last Exam 等硬基準上壓過了 GPT-5 ^[14]。智譜靠 GLM-5.2 登頂開源權重榜、還是全華為昇騰訓出來的，把「長程任務」寫進了發佈詞 ^[5]^[6]。通義千問手握全球下載量最大的開源權重家族之一，也把 Agent 與工具調用當成新一代的主攻方向。MiniMax 則用 M3 的實測冠軍，給自己在這一層掙了個座位 ^[1]。

第二層是分發王。豆包 3.3 億用戶、每日 120 萬億 token 的體量，放在任何一張按規模排的榜上都是頭名。但它贏的是入口——把 AI 塞進億級國民應用的分發能力，是字節的看家本領，不是長任務執行的深度。它同期給豆包加了訂閱分層，走的是消費產品的商業化路子。付錢看它用戶最多、和付錢看它活兒幹得最好，是兩筆不同的賬——這一層量的是觸達，不是規劃。

第三層，已經離開前沿賽道的。這一層最能說明新尺子的鋒利，因為它們當年都在牌桌上。百川智能，搜狗創始人王小川 2023 年拉起的隊伍，「AI 六小虎」之一，2025 年 3 月宣佈重組、把重心整體搬去醫療健康——不再和別人比誰的長任務跑得遠。零一萬物更直接：李開復的團隊曾用遠少於對手的算力訓出對標模型，Yi-Coder 支持 52 種編程語言、128k 上下文，是認真做過編程模型的；但 2025 年前後它逐步收縮大模型預訓練，轉去賣企業級 AI 解決方案。騰訊混元則退成了另一種形態——它有 Transformer-Mamba 架構的 T1 推理模型，但主要活在騰訊的企業和內部生態裡，不出來搶「誰的規劃能力更強」這個頭銜。

三家的退場方式各不相同：轉行、轉售、內嵌。共同點是，用「會不會寫規劃」這把尺子一量，它們都已經不在這條跑道上了。而用「曾經融了多少錢、拿過什麼頭銜」去量，它們看著還在牌桌邊——這正是舊尺子會騙人的地方。

為什麼九家不約而同，轉向了「寫規劃」

九家在同一個季度把口徑擰向同一件事，不像巧合，更像被四股力一起推到了這裡。

第一股來自應用側。agentic 編程被公認是當下最接近「殺手級」的落地場景，而這個場景的能力標準，是海外產品先定下來的——從 Cursor 到 Claude Code 再到 Codex，是它們先教會市場「一個模型應該能自己讀代碼庫、自己改、自己跑測試」。國產模型這一輪集體加碼 Coding 和 Agent，本質是在追一條別人已經畫好的能力曲線：標準不在自己手裡，你只能先證明自己爬得上去。

第二股是 token 經濟學。一個 Agent 長任務，一次要吃掉的 token 遠多於一句問答——它要讀整個倉庫、要反覆推理、要多輪調工具。吞得多，單位經濟反而更好看，這就解釋了本週一連串漲價：DeepSeek V4 把高峰時段 API 價格調成平時的兩倍 ^[7]^[8]，智譜一季度也把 API 價格上調約 83%、調用量卻漲了約四倍 ^[10]。Kimi 更把這條路走到了頭——B 端負責人黃震昕把漲價歸到算力成本上漲，同時給出一個更要緊的數字：Kimi 的 API 收入已佔整體七成以上，海外付費用戶和 API 收入都漲了約四倍 ^[11]^[9]。當收入的大頭從 C 端訂閱挪到 API 調用，誰能扛住長任務、誰就能把 token 賣得更多、更貴。這門生意的重心，正從「租算力」滑向「按 token 分潤」。

第三股是開源即分發。GLM、Kimi、DeepSeek 都把權重開源出去——對沒有豆包那種國民級入口的公司，把模型免費放到 Hugging Face，讓全世界的開發者拿去嵌進自己的 Agent，本身就是最省錢的分發。GLM-5.2 開源當天就在華為昇騰、寒武紀、摩爾線程等一串國產算力平臺上做到即插即用 ^[6]，這是在用開源換生態位。

第四股是資本敘事。智譜萬億港元、MiniMax 從 4000 億高點回撤超 60%、兩者估值差超過 7 倍 ^[10]，Kimi 315 億美元 ^[9]——一級二級市場給出的這些數字，背後押的正是「誰的 Agent、誰的規劃能力更值錢」的預期。可估值鴻溝和生意的厚度並不同步：智譜、MiniMax 2025 年收入分別約 7.24 億元和 5.6 億元，差距不到 1.3 倍，卻撐起了 7 倍的估值落差 ^[10]。港股這邊，智譜等五家還在推進回 A 股上市，而 A 股上半年 IPO 募資已達 953.63 億元 ^[13]，資本的水位在抬。「會寫規劃」於是成了同時講給用戶和講給投資人的故事。只是鈦媒體已經提前敲了警鐘：智譜與 MiniMax 之間的定位敘事差異，遲早要面臨市場的修正——今天的估值分化，未必是終局 ^[12]。

四股力疊加，指向同一個結論：轉向長任務不是九家各自的靈光一閃，是這門生意的物理走向。

新尺子最難的一點，恰恰是它量不準自己

把座次重排完，還剩一個別扭之處值得挑明。

「會寫規劃」這件事，偏偏最難用一張榜單證明。單題評測量的是一次答得對不對，可長任務的質量只在長跨度裡才顯形——一個模型能不能連跑 12 小時不崩，你沒讓它跑滿 12 小時就不知道。這意味著這一層的排名會比參數榜更滑、更快過期：MiniMax M3 這周是冠軍，下週換一道更長、更刁的真實任務，名次就可能重洗。舊尺子量出來的座次相對穩，是因為用戶量和估值變得慢；新尺子量出來的座次天生不穩，因為它量的是一種要在時間裡展開、才看得見的能力。

更值得記下的是另一重：這是國產大模型第一次，在一項由「應用產品」而非「論文和榜單」定義的能力上，直接對標海外。過去比的是誰的論文指標漂亮、誰在某個 benchmark 上登頂，那是學術定義的戰場；這一次比的是誰能在真實工程任務裡當好一個自主執行者，標準是 Cursor、Claude Code、Codex 這些產品在市場上一寸寸磨出來的。這既是機會——貼著真實需求走，做出來的東西馬上有人付費；也是軟肋——你追的是別人握著的曲線，能力的定義權、什麼算「好」的裁量權，都還不在自己手裡。

更微妙的是這條學習曲線的起點。2026 年 2 月，Anthropic 公開點名，指控 DeepSeek、MiniMax、月之暗面用兩萬多個虛假賬戶、累計超過 1600 萬次調用，對 Claude 做「工業級蒸餾」；其中 MiniMax 的調用量最大、超過 1300 萬次，據稱主要衝著 Agent 編程與工具調用而去——正是它今天賴以奪冠的那項能力 ^[15]。這項指控真偽尚無定論，馬斯克等人反唇相譏，說 Anthropic 自己的訓練數據也來路不清；但它至少戳出一個尷尬：這一層最前沿的選手，被指連「怎麼寫好規劃」都是跟 Claude 學來的。

那場五選一的實測，請來當裁判的，正是 Claude Opus 4.7。這個細節比冠軍是誰更耐人尋味：連給國產模型的長任務打分，用的都還是海外模型的尺子。換尺子重排出的這張新地圖，最前沿的那一層跑得越快，越會撞上同一個問題——尺子，是誰的。

換一把尺子：當「會寫規劃」成為國產大模型的新分水嶺

你以為的座次，是用什麼量出來的

換一把尺子：什麼叫「會寫規劃」

用新尺子重排：誰在拼、誰在分發、誰已離場

為什麼九家不約而同，轉向了「寫規劃」

新尺子最難的一點，恰恰是它量不準自己

常見問題

參考來源

你以為的座次，是用什麼量出來的

換一把尺子：什麼叫「會寫規劃」

用新尺子重排：誰在拼、誰在分發、誰已離場

為什麼九家不約而同，轉向了「寫規劃」

新尺子最難的一點，恰恰是它量不準自己

常見問題

參考來源

同系列往期

相關百科

相關每日新聞