一场只有五名选手的比赛,在 6 月悄悄决出了名次。裁判是 Claude Opus 4.7,赛题是一份真实工程任务,选手是 DeepSeek V4 Pro、Kimi K2.6、Qwen 3.7 Max、GLM 5.1 和 MiniMax M3。结果爆冷:综合分排第一的不是用户最多的,也不是估值最高的,而是 MiniMax M3,85.3 分;而 DeepSeek V4 Pro 综合只排第四、78.6 分,却凭全场最低的调用成本把「性价比之王」的名头收入囊中 [1]

这张成绩单之所以值得停下来看,是因为它量的东西,和外界习惯用来给国产大模型排座次的东西,完全不是一回事。

同一周,三款旗舰级模型几乎同时把宣传口径拧向了同一件事。MiniMax M3 开源,总参数约 428B、激活约 23B,主打「前沿 Coding、1M 超长上下文、原生多模态」,官方拿出的招牌演示是:让它连续跑近 12 小时,全程无人干预,自己产出 18 次代码提交和 23 张实验图表,把一组核心实验跑通 [2][3][4]。GLM-5.2 用 744B 的混合专家架构、全程华为昇腾芯片训练、零英伟达卡,登上了开源权重榜首,a16z 联合创始人 Marc Andreessen 给它的评语是「首个能无妥协匹敌美国大厂公开模型的中国 AI」[5][6]。DeepSeek 则官宣 V4 正式版 7 月中旬上线,同时把 API 定价改成峰谷制——高峰时段价格翻倍 [7]

三家卖的不是参数榜上多几分,是同一种能力:扛得住一个跨小时、多步骤的长任务而不跑偏。这把尺子,正在把一张你以为已经排定的地图,重新画一遍。

你以为的座次,是用什么量出来的

先把旧地图摊开。

给国产大模型排名,坊间最顺手的三把尺子,一是用户量。豆包到 2026 年 5 月拥有 3.3 亿用户,每天处理 120 万亿 token,是中国装机量最大的 AI 助手,火山引擎在后面供着算力。通义千问同期也坐拥数以亿计的用户,还手握全球下载量最大的开源权重家族之一。按这把尺子,字节和阿里是当之无愧的头名。

二是估值与市值。2026 年上半年,港股开出「大模型双雄」:智谱 1 月 8 日在港交所上市,是中国首家完成 IPO 的主要大模型公司;MiniMax 隔天 1 月 9 日跟上。到 6 月下旬,智谱市值突破万亿港元,成了国内第一家迈进万亿港元的大模型公司,上市短短几个月市值涨了约二十倍 [10]。Kimi 没上市,但一级市场把它抬到了投前 315 亿美元的估值,收入曲线被投资人说成有 Anthropic 早期的影子 [9]。按这把尺子,头名换成了智谱。

三是榜单分数。谁在 SWE-bench 上高一个百分点、谁在某项评测上压过 GPT-5.5,一度是各家发布会的高潮。

三把尺子各有各的头名,本身就说明它们量的不是同一样东西。用户量量的是分发,估值量的是资本的预期,榜单分量的是某一道切片题的瞬时表现。它们都真实,也都不完整——它们回答不了那个越来越要紧的问题:把一个真实的活儿丢给它,它能不能自己干完。

换一把尺子:什么叫「会写规划」

「会写规划」这四个字容易被当成一句虚话,得先钉死它的意思。

它不是单轮问答答得漂亮。你问一句、它答一句、答对了,那是短跑。写规划是长跑:给一个目标,模型得自己把它拆成几十步,在一条很长的上下文里记住自己走到哪、前面定过什么、哪些还没做;中间某一步跑错了,它要能发现、回头改,而不是带着错误一路狂奔;这样连续跑上几个小时,还不漂移、不失忆、不自我矛盾。

MiniMax 那个「12 小时」演示,卖的正是这个。近 12 小时里没有人接管,18 次提交意味着它自己判断「这一段可以定版了」十八次,23 张图表意味着它反复在验证、在看结果、在决定下一步——这是一个执行者的画像,不是一个应答机的画像。它靠自研的稀疏注意力把 1M 上下文的推理成本压下去,长跨度才跑得起 [4]。DeepSeek 去年 12 月发的 V3.2,在 SWE-bench、Terminal-bench 这类考「改真实代码库」的基准上,官方称较上一代大幅提升,量的也是同一件事:给你一个仓库、一个 issue,你能不能真的把它修好。GLM-5.2 干脆把宣传重心从跑分挪开,改讲「Coding 与长程任务」,配一套价格远低于海外闭源旗舰的订阅方案 [5]

这把尺子的刻度,和用户量、估值、单题榜单都不重合。一个模型可以有三亿用户、却答不好一个跨小时的工程任务;也可以没几个 C 端用户,却是开发者手里最趁手的长任务引擎。橘生淮南则为橘,生于淮北则为枳——同一批模型,换一方水土量,长出来的排名是另一个样子。

用新尺子重排:谁在拼、谁在分发、谁已离场

换上这把尺子,九家的位置重新落定,分出三层。

第一层是真在拼长任务的前沿。DeepSeek 是最没有悬念的一个:它出自量化基金幻方,创始人梁文锋在美国对华芯片限制收紧前,就靠量化生意的利润屯下大批英伟达 A100,R1 又用相对有限的算力做出了被业界称为「转折点」的推理性能。到 V4 预览,它给出 1.6 万亿参数的 Pro 和 2840 亿参数的 Flash、百万 token 上下文,本周又把正式版和峰谷定价一起端上桌 [7][8]。Kimi 的路线更是从头就压在「长」上——杨植麟给自己定的三阶段 AGI 目标,第一阶段就是「实现长上下文」;2023 年 10 月首款 Kimi 能处理 20 万汉字,一路做到 K2 Thinking——这个万亿参数、激活仅 32B 的 MoE 模型,训练成本约 460 万美元,却在 Humanity’s Last Exam 等硬基准上压过了 GPT-5 [14]。智谱靠 GLM-5.2 登顶开源权重榜、还是全华为昇腾训出来的,把「长程任务」写进了发布词 [5][6]。通义千问手握全球下载量最大的开源权重家族之一,也把 Agent 与工具调用当成新一代的主攻方向。MiniMax 则用 M3 的实测冠军,给自己在这一层挣了个座位 [1]

第二层是分发王。豆包 3.3 亿用户、每日 120 万亿 token 的体量,放在任何一张按规模排的榜上都是头名。但它赢的是入口——把 AI 塞进亿级国民应用的分发能力,是字节的看家本领,不是长任务执行的深度。它同期给豆包加了订阅分层,走的是消费产品的商业化路子。付钱看它用户最多、和付钱看它活儿干得最好,是两笔不同的账——这一层量的是触达,不是规划。

第三层,已经离开前沿赛道的。这一层最能说明新尺子的锋利,因为它们当年都在牌桌上。百川智能,搜狗创始人王小川 2023 年拉起的队伍,「AI 六小虎」之一,2025 年 3 月宣布重组、把重心整体搬去医疗健康——不再和别人比谁的长任务跑得远。零一万物更直接:李开复的团队曾用远少于对手的算力训出对标模型,Yi-Coder 支持 52 种编程语言、128k 上下文,是认真做过编程模型的;但 2025 年前后它逐步收缩大模型预训练,转去卖企业级 AI 解决方案。腾讯混元则退成了另一种形态——它有 Transformer-Mamba 架构的 T1 推理模型,但主要活在腾讯的企业和内部生态里,不出来抢「谁的规划能力更强」这个头衔。

三家的退场方式各不相同:转行、转售、内嵌。共同点是,用「会不会写规划」这把尺子一量,它们都已经不在这条跑道上了。而用「曾经融了多少钱、拿过什么头衔」去量,它们看着还在牌桌边——这正是旧尺子会骗人的地方。

为什么九家不约而同,转向了「写规划」

九家在同一个季度把口径拧向同一件事,不像巧合,更像被四股力一起推到了这里。

第一股来自应用侧。agentic 编程被公认是当下最接近「杀手级」的落地场景,而这个场景的能力标准,是海外产品先定下来的——从 Cursor 到 Claude Code 再到 Codex,是它们先教会市场「一个模型应该能自己读代码库、自己改、自己跑测试」。国产模型这一轮集体加码 Coding 和 Agent,本质是在追一条别人已经画好的能力曲线:标准不在自己手里,你只能先证明自己爬得上去。

第二股是 token 经济学。一个 Agent 长任务,一次要吃掉的 token 远多于一句问答——它要读整个仓库、要反复推理、要多轮调工具。吞得多,单位经济反而更好看,这就解释了本周一连串涨价:DeepSeek V4 把高峰时段 API 价格调成平时的两倍 [7][8],智谱一季度也把 API 价格上调约 83%、调用量却涨了约四倍 [10]。Kimi 更把这条路走到了头——B 端负责人黄震昕把涨价归到算力成本上涨,同时给出一个更要紧的数字:Kimi 的 API 收入已占整体七成以上,海外付费用户和 API 收入都涨了约四倍 [11][9]。当收入的大头从 C 端订阅挪到 API 调用,谁能扛住长任务、谁就能把 token 卖得更多、更贵。这门生意的重心,正从「租算力」滑向「按 token 分润」。

第三股是开源即分发。GLM、Kimi、DeepSeek 都把权重开源出去——对没有豆包那种国民级入口的公司,把模型免费放到 Hugging Face,让全世界的开发者拿去嵌进自己的 Agent,本身就是最省钱的分发。GLM-5.2 开源当天就在华为昇腾、寒武纪、摩尔线程等一串国产算力平台上做到即插即用 [6],这是在用开源换生态位。

第四股是资本叙事。智谱万亿港元、MiniMax 从 4000 亿高点回撤超 60%、两者估值差超过 7 倍 [10],Kimi 315 亿美元 [9]——一级二级市场给出的这些数字,背后押的正是「谁的 Agent、谁的规划能力更值钱」的预期。可估值鸿沟和生意的厚度并不同步:智谱、MiniMax 2025 年收入分别约 7.24 亿元和 5.6 亿元,差距不到 1.3 倍,却撑起了 7 倍的估值落差 [10]。港股这边,智谱等五家还在推进回 A 股上市,而 A 股上半年 IPO 募资已达 953.63 亿元 [13],资本的水位在抬。「会写规划」于是成了同时讲给用户和讲给投资人的故事。只是钛媒体已经提前敲了警钟:智谱与 MiniMax 之间的定位叙事差异,迟早要面临市场的修正——今天的估值分化,未必是终局 [12]

四股力叠加,指向同一个结论:转向长任务不是九家各自的灵光一闪,是这门生意的物理走向。

新尺子最难的一点,恰恰是它量不准自己

把座次重排完,还剩一个别扭之处值得挑明。

「会写规划」这件事,偏偏最难用一张榜单证明。单题评测量的是一次答得对不对,可长任务的质量只在长跨度里才显形——一个模型能不能连跑 12 小时不崩,你没让它跑满 12 小时就不知道。这意味着这一层的排名会比参数榜更滑、更快过期:MiniMax M3 这周是冠军,下周换一道更长、更刁的真实任务,名次就可能重洗。旧尺子量出来的座次相对稳,是因为用户量和估值变得慢;新尺子量出来的座次天生不稳,因为它量的是一种要在时间里展开、才看得见的能力。

更值得记下的是另一重:这是国产大模型第一次,在一项由「应用产品」而非「论文和榜单」定义的能力上,直接对标海外。过去比的是谁的论文指标漂亮、谁在某个 benchmark 上登顶,那是学术定义的战场;这一次比的是谁能在真实工程任务里当好一个自主执行者,标准是 Cursor、Claude Code、Codex 这些产品在市场上一寸寸磨出来的。这既是机会——贴着真实需求走,做出来的东西马上有人付费;也是软肋——你追的是别人握着的曲线,能力的定义权、什么算「好」的裁量权,都还不在自己手里。

更微妙的是这条学习曲线的起点。2026 年 2 月,Anthropic 公开点名,指控 DeepSeek、MiniMax、月之暗面用两万多个虚假账户、累计超过 1600 万次调用,对 Claude 做「工业级蒸馏」;其中 MiniMax 的调用量最大、超过 1300 万次,据称主要冲着 Agent 编程与工具调用而去——正是它今天赖以夺冠的那项能力 [15]。这项指控真伪尚无定论,马斯克等人反唇相讥,说 Anthropic 自己的训练数据也来路不清;但它至少戳出一个尴尬:这一层最前沿的选手,被指连「怎么写好规划」都是跟 Claude 学来的。

那场五选一的实测,请来当裁判的,正是 Claude Opus 4.7。这个细节比冠军是谁更耐人寻味:连给国产模型的长任务打分,用的都还是海外模型的尺子。换尺子重排出的这张新地图,最前沿的那一层跑得越快,越会撞上同一个问题——尺子,是谁的。