国产大模型说的「会写规划」到底指什么？

不是单轮问答答得对，而是长时程 agentic 执行：把一个目标拆成多步、跨长上下文维持状态、某一步失败能自我回修、连续跑几小时不漂移。MiniMax 让 M3 连续运行近 12 小时，全程自主产出 18 次代码提交与 23 张实验图表，是这类能力的一个样本。

本周三款旗舰模型分别强在哪？

MiniMax M3 总参数约 428B、激活约 23B、1M 上下文，在一场五款国产模型的编程实测里以综合 85.3 分夺冠；GLM-5.2 用 744B 的混合专家架构、全华为昇腾芯片训练，登顶开源权重榜；DeepSeek V4 将于 7 月中旬上线正式版，V4 预览已给到 1.6 万亿参数的 Pro 与百万 token 上下文。

智谱和 MiniMax 的估值为什么差这么多？

6 月下旬智谱市值突破万亿港元，成为国内首家迈入万亿港元的大模型公司；MiniMax 则从 4000 亿港元的高点回撤超过 60%，两者估值差距超过 7 倍。但两家 2025 年收入分别约 7.24 亿元与 5.6 亿元、差距不到 1.3 倍，估值鸿沟远大于收入鸿沟，钛媒体因此提示这一叙事差异迟早要被市场修正。

豆包用户最多，为什么不算在前沿梯队？

到 2026 年 5 月豆包拥有 3.3 亿用户、每日处理 120 万亿 token，赢在消费入口与分发；这与「能不能扛住跨小时长任务」是两个不同的游戏。用新尺子量，分发规模不直接等于长任务执行能力。

为什么 DeepSeek、Kimi 都在给 API 涨价？

Agent 长任务一次要吞掉更多 token，单位经济随之改善，算力成本也在上涨。DeepSeek V4 正式版将引入峰谷定价，高峰时段 API 价格是平时的 2 倍；Kimi 的 API 收入已占整体七成以上，其 B 端负责人黄震昕把涨价归因于算力成本上涨。

换一把尺子：当「会写规划」成为国产大模型的新分水岭 · 深度报道

一场只有五名选手的比赛，在 6 月悄悄决出了名次。裁判是 Claude Opus 4.7，赛题是一份真实工程任务，选手是 DeepSeek V4 Pro、Kimi K2.6、Qwen 3.7 Max、GLM 5.1 和 MiniMax M3。结果爆冷：综合分排第一的不是用户最多的，也不是估值最高的，而是 MiniMax M3，85.3 分；而 DeepSeek V4 Pro 综合只排第四、78.6 分，却凭全场最低的调用成本把「性价比之王」的名头收入囊中 ^[1]。

这张成绩单之所以值得停下来看，是因为它量的东西，和外界习惯用来给国产大模型排座次的东西，完全不是一回事。

同一周，三款旗舰级模型几乎同时把宣传口径拧向了同一件事。MiniMax M3 开源，总参数约 428B、激活约 23B，主打「前沿 Coding、1M 超长上下文、原生多模态」，官方拿出的招牌演示是：让它连续跑近 12 小时，全程无人干预，自己产出 18 次代码提交和 23 张实验图表，把一组核心实验跑通 ^[2]^[3]^[4]。GLM-5.2 用 744B 的混合专家架构、全程华为昇腾芯片训练、零英伟达卡，登上了开源权重榜首，a16z 联合创始人 Marc Andreessen 给它的评语是「首个能无妥协匹敌美国大厂公开模型的中国 AI」^[5]^[6]。DeepSeek 则官宣 V4 正式版 7 月中旬上线，同时把 API 定价改成峰谷制——高峰时段价格翻倍 ^[7]。

三家卖的不是参数榜上多几分，是同一种能力：扛得住一个跨小时、多步骤的长任务而不跑偏。这把尺子，正在把一张你以为已经排定的地图，重新画一遍。

你以为的座次，是用什么量出来的

先把旧地图摊开。

给国产大模型排名，坊间最顺手的三把尺子，一是用户量。豆包到 2026 年 5 月拥有 3.3 亿用户，每天处理 120 万亿 token，是中国装机量最大的 AI 助手，火山引擎在后面供着算力。通义千问同期也坐拥数以亿计的用户，还手握全球下载量最大的开源权重家族之一。按这把尺子，字节和阿里是当之无愧的头名。

二是估值与市值。2026 年上半年，港股开出「大模型双雄」：智谱 1 月 8 日在港交所上市，是中国首家完成 IPO 的主要大模型公司；MiniMax 隔天 1 月 9 日跟上。到 6 月下旬，智谱市值突破万亿港元，成了国内第一家迈进万亿港元的大模型公司，上市短短几个月市值涨了约二十倍 ^[10]。Kimi 没上市，但一级市场把它抬到了投前 315 亿美元的估值，收入曲线被投资人说成有 Anthropic 早期的影子 ^[9]。按这把尺子，头名换成了智谱。

三是榜单分数。谁在 SWE-bench 上高一个百分点、谁在某项评测上压过 GPT-5.5，一度是各家发布会的高潮。

三把尺子各有各的头名，本身就说明它们量的不是同一样东西。用户量量的是分发，估值量的是资本的预期，榜单分量的是某一道切片题的瞬时表现。它们都真实，也都不完整——它们回答不了那个越来越要紧的问题：把一个真实的活儿丢给它，它能不能自己干完。

换一把尺子：什么叫「会写规划」

「会写规划」这四个字容易被当成一句虚话，得先钉死它的意思。

它不是单轮问答答得漂亮。你问一句、它答一句、答对了，那是短跑。写规划是长跑：给一个目标，模型得自己把它拆成几十步，在一条很长的上下文里记住自己走到哪、前面定过什么、哪些还没做；中间某一步跑错了，它要能发现、回头改，而不是带着错误一路狂奔；这样连续跑上几个小时，还不漂移、不失忆、不自我矛盾。

MiniMax 那个「12 小时」演示，卖的正是这个。近 12 小时里没有人接管，18 次提交意味着它自己判断「这一段可以定版了」十八次，23 张图表意味着它反复在验证、在看结果、在决定下一步——这是一个执行者的画像，不是一个应答机的画像。它靠自研的稀疏注意力把 1M 上下文的推理成本压下去，长跨度才跑得起 ^[4]。DeepSeek 去年 12 月发的 V3.2，在 SWE-bench、Terminal-bench 这类考「改真实代码库」的基准上，官方称较上一代大幅提升，量的也是同一件事：给你一个仓库、一个 issue，你能不能真的把它修好。GLM-5.2 干脆把宣传重心从跑分挪开，改讲「Coding 与长程任务」，配一套价格远低于海外闭源旗舰的订阅方案 ^[5]。

这把尺子的刻度，和用户量、估值、单题榜单都不重合。一个模型可以有三亿用户、却答不好一个跨小时的工程任务；也可以没几个 C 端用户，却是开发者手里最趁手的长任务引擎。橘生淮南则为橘，生于淮北则为枳——同一批模型，换一方水土量，长出来的排名是另一个样子。

用新尺子重排：谁在拼、谁在分发、谁已离场

换上这把尺子，九家的位置重新落定，分出三层。

第一层是真在拼长任务的前沿。DeepSeek 是最没有悬念的一个：它出自量化基金幻方，创始人梁文锋在美国对华芯片限制收紧前，就靠量化生意的利润屯下大批英伟达 A100，R1 又用相对有限的算力做出了被业界称为「转折点」的推理性能。到 V4 预览，它给出 1.6 万亿参数的 Pro 和 2840 亿参数的 Flash、百万 token 上下文，本周又把正式版和峰谷定价一起端上桌 ^[7]^[8]。Kimi 的路线更是从头就压在「长」上——杨植麟给自己定的三阶段 AGI 目标，第一阶段就是「实现长上下文」；2023 年 10 月首款 Kimi 能处理 20 万汉字，一路做到 K2 Thinking——这个万亿参数、激活仅 32B 的 MoE 模型，训练成本约 460 万美元，却在 Humanity’s Last Exam 等硬基准上压过了 GPT-5 ^[14]。智谱靠 GLM-5.2 登顶开源权重榜、还是全华为昇腾训出来的，把「长程任务」写进了发布词 ^[5]^[6]。通义千问手握全球下载量最大的开源权重家族之一，也把 Agent 与工具调用当成新一代的主攻方向。MiniMax 则用 M3 的实测冠军，给自己在这一层挣了个座位 ^[1]。

第二层是分发王。豆包 3.3 亿用户、每日 120 万亿 token 的体量，放在任何一张按规模排的榜上都是头名。但它赢的是入口——把 AI 塞进亿级国民应用的分发能力，是字节的看家本领，不是长任务执行的深度。它同期给豆包加了订阅分层，走的是消费产品的商业化路子。付钱看它用户最多、和付钱看它活儿干得最好，是两笔不同的账——这一层量的是触达，不是规划。

第三层，已经离开前沿赛道的。这一层最能说明新尺子的锋利，因为它们当年都在牌桌上。百川智能，搜狗创始人王小川 2023 年拉起的队伍，「AI 六小虎」之一，2025 年 3 月宣布重组、把重心整体搬去医疗健康——不再和别人比谁的长任务跑得远。零一万物更直接：李开复的团队曾用远少于对手的算力训出对标模型，Yi-Coder 支持 52 种编程语言、128k 上下文，是认真做过编程模型的；但 2025 年前后它逐步收缩大模型预训练，转去卖企业级 AI 解决方案。腾讯混元则退成了另一种形态——它有 Transformer-Mamba 架构的 T1 推理模型，但主要活在腾讯的企业和内部生态里，不出来抢「谁的规划能力更强」这个头衔。

三家的退场方式各不相同：转行、转售、内嵌。共同点是，用「会不会写规划」这把尺子一量，它们都已经不在这条跑道上了。而用「曾经融了多少钱、拿过什么头衔」去量，它们看着还在牌桌边——这正是旧尺子会骗人的地方。

为什么九家不约而同，转向了「写规划」

九家在同一个季度把口径拧向同一件事，不像巧合，更像被四股力一起推到了这里。

第一股来自应用侧。agentic 编程被公认是当下最接近「杀手级」的落地场景，而这个场景的能力标准，是海外产品先定下来的——从 Cursor 到 Claude Code 再到 Codex，是它们先教会市场「一个模型应该能自己读代码库、自己改、自己跑测试」。国产模型这一轮集体加码 Coding 和 Agent，本质是在追一条别人已经画好的能力曲线：标准不在自己手里，你只能先证明自己爬得上去。

第二股是 token 经济学。一个 Agent 长任务，一次要吃掉的 token 远多于一句问答——它要读整个仓库、要反复推理、要多轮调工具。吞得多，单位经济反而更好看，这就解释了本周一连串涨价：DeepSeek V4 把高峰时段 API 价格调成平时的两倍 ^[7]^[8]，智谱一季度也把 API 价格上调约 83%、调用量却涨了约四倍 ^[10]。Kimi 更把这条路走到了头——B 端负责人黄震昕把涨价归到算力成本上涨，同时给出一个更要紧的数字：Kimi 的 API 收入已占整体七成以上，海外付费用户和 API 收入都涨了约四倍 ^[11]^[9]。当收入的大头从 C 端订阅挪到 API 调用，谁能扛住长任务、谁就能把 token 卖得更多、更贵。这门生意的重心，正从「租算力」滑向「按 token 分润」。

第三股是开源即分发。GLM、Kimi、DeepSeek 都把权重开源出去——对没有豆包那种国民级入口的公司，把模型免费放到 Hugging Face，让全世界的开发者拿去嵌进自己的 Agent，本身就是最省钱的分发。GLM-5.2 开源当天就在华为昇腾、寒武纪、摩尔线程等一串国产算力平台上做到即插即用 ^[6]，这是在用开源换生态位。

第四股是资本叙事。智谱万亿港元、MiniMax 从 4000 亿高点回撤超 60%、两者估值差超过 7 倍 ^[10]，Kimi 315 亿美元 ^[9]——一级二级市场给出的这些数字，背后押的正是「谁的 Agent、谁的规划能力更值钱」的预期。可估值鸿沟和生意的厚度并不同步：智谱、MiniMax 2025 年收入分别约 7.24 亿元和 5.6 亿元，差距不到 1.3 倍，却撑起了 7 倍的估值落差 ^[10]。港股这边，智谱等五家还在推进回 A 股上市，而 A 股上半年 IPO 募资已达 953.63 亿元 ^[13]，资本的水位在抬。「会写规划」于是成了同时讲给用户和讲给投资人的故事。只是钛媒体已经提前敲了警钟：智谱与 MiniMax 之间的定位叙事差异，迟早要面临市场的修正——今天的估值分化，未必是终局 ^[12]。

四股力叠加，指向同一个结论：转向长任务不是九家各自的灵光一闪，是这门生意的物理走向。

新尺子最难的一点，恰恰是它量不准自己

把座次重排完，还剩一个别扭之处值得挑明。

「会写规划」这件事，偏偏最难用一张榜单证明。单题评测量的是一次答得对不对，可长任务的质量只在长跨度里才显形——一个模型能不能连跑 12 小时不崩，你没让它跑满 12 小时就不知道。这意味着这一层的排名会比参数榜更滑、更快过期：MiniMax M3 这周是冠军，下周换一道更长、更刁的真实任务，名次就可能重洗。旧尺子量出来的座次相对稳，是因为用户量和估值变得慢；新尺子量出来的座次天生不稳，因为它量的是一种要在时间里展开、才看得见的能力。

更值得记下的是另一重：这是国产大模型第一次，在一项由「应用产品」而非「论文和榜单」定义的能力上，直接对标海外。过去比的是谁的论文指标漂亮、谁在某个 benchmark 上登顶，那是学术定义的战场；这一次比的是谁能在真实工程任务里当好一个自主执行者，标准是 Cursor、Claude Code、Codex 这些产品在市场上一寸寸磨出来的。这既是机会——贴着真实需求走，做出来的东西马上有人付费；也是软肋——你追的是别人握着的曲线，能力的定义权、什么算「好」的裁量权，都还不在自己手里。

更微妙的是这条学习曲线的起点。2026 年 2 月，Anthropic 公开点名，指控 DeepSeek、MiniMax、月之暗面用两万多个虚假账户、累计超过 1600 万次调用，对 Claude 做「工业级蒸馏」；其中 MiniMax 的调用量最大、超过 1300 万次，据称主要冲着 Agent 编程与工具调用而去——正是它今天赖以夺冠的那项能力 ^[15]。这项指控真伪尚无定论，马斯克等人反唇相讥，说 Anthropic 自己的训练数据也来路不清；但它至少戳出一个尴尬：这一层最前沿的选手，被指连「怎么写好规划」都是跟 Claude 学来的。

那场五选一的实测，请来当裁判的，正是 Claude Opus 4.7。这个细节比冠军是谁更耐人寻味：连给国产模型的长任务打分，用的都还是海外模型的尺子。换尺子重排出的这张新地图，最前沿的那一层跑得越快，越会撞上同一个问题——尺子，是谁的。

换一把尺子：当「会写规划」成为国产大模型的新分水岭

你以为的座次，是用什么量出来的

换一把尺子：什么叫「会写规划」

用新尺子重排：谁在拼、谁在分发、谁已离场

为什么九家不约而同，转向了「写规划」

新尺子最难的一点，恰恰是它量不准自己

常见问题

参考来源

你以为的座次，是用什么量出来的

换一把尺子：什么叫「会写规划」

用新尺子重排：谁在拼、谁在分发、谁已离场

为什么九家不约而同，转向了「写规划」

新尺子最难的一点，恰恰是它量不准自己

常见问题

参考来源

同系列往期

相关百科

相关每日新闻