榜单还是那张榜单。六月底,Anthropic 把 Claude Sonnet 5 推上台面,SWE-bench Pro 拿下 63.2 分,同门更贵的 Opus 4.8 是 69.2 分,两者稳坐真实软件工程任务的第一梯队[8][9]。按照过去三年的剧本,照例该轮到各家企业排队续费、用量曲线继续往右上角爬。
可就在同一周,Coinbase 的工程师打开 IDE,敲下的每一个 AI 请求,默认已经不再流向 Claude。它们先撞上一道内部网关,被分派给两个中国实验室的开源权重模型——智谱的 GLM 5.2 和月之暗面的 Kimi 2.7。CEO 布莱恩·阿姆斯特朗在 6 月 29 日把这件事摊开:AI 账单砍掉近一半,而 token 消耗量创下历史新高[1][2]。
一个模型仍是榜单冠军,采购却在静默地离它而去。这中间隔着的,不是「谁分数高」,而是一笔被算清了的账。
一张能力上并不落后、账单却相反的收据
这笔账究竟省在哪,决定了后面所有故事的走向。
阿姆斯特朗给出的不是「我们忍痛降级换便宜货」,而是一套让开支和用量脱钩的做法。其一是模型单价:GLM 5.2 每百万输入 token 约 1.40 美元、每百万输出约 4.40 美元;Anthropic Opus 4.8 对应是 5 美元和 25 美元——输出端贵了近六倍[1]。其二是智能路由,内部网关按任务难度把请求分派给最划算的模型,难的才往上送。其三是缓存:命中率从 5% 拉到 60%,同一批调用里六成不再重新计费,阿姆斯特朗称之为「12 倍的改善」[1]。
三样叠起来,才有了那张反直觉的收据——用量创新高,账单反而下探。
真正扎人的是他随口带出的一个数字:91% 的开发者从未触到过此前的用量上限[1]。这句话把过去两年的采购逻辑掀了个底朝天。企业买闭源顶配,买的其实是安全感,是「谁都别被限流」的冗余,而九成人根本用不到那个天花板。为一成人的峰值,付十成人的溢价——当有人第一次把这行账目念出来,它就再也遮不住了。
把开源接进来,为什么在 2026 年成了理性选择
省钱的账人人会算,难的是「省了之后活还干得动吗」。让这道题在今年翻面的,是供给侧的两级台阶。
GLM-5.2 是第一级。它是一个总参数约 7530 亿、每次只激活约 400 亿的混合专家模型,百万 token 上下文,权重按 MIT 许可完全放开——最宽松的那一档,企业可以下载、自托管、随便改,不必看任何人脸色[3][4]。它引入的 IndexShare 稀疏注意力,让每 4 层共用一套轻量索引器,在百万上下文长度下把单 token 算力压掉约 2.9 倍[4]。落到结果上,它在长程编码、前端设计、agent 工具调用这些活上超过 GPT-5.5,与 Opus 4.8 只差几分,而 API 成本约为前者的六分之一[3]。开发者西蒙·威利森的判断更直接:这大概是当下最强的纯文本开源权重模型[5]。
DeepSeek V4 是第二级,把选择摊成一个货架。旗舰 Pro 版总参 1.6 万亿、激活 490 亿;轻量 Flash 版总参 2840 亿、激活 130 亿,两者都带百万 token 上下文[6][7]。价格更是把「日常任务够用就好」写进了标价单:促销档下 Pro 每百万输入低到 0.435 美元、输出 0.87 美元,Flash 更薄;命中缓存前缀的部分只按标准输入价的十分之一计[6]。企业要的从来不是一个「最强模型」,而是一整排「按难度取用」的档位——这排货架一摆齐,智能路由才有东西可路由。
于是切换从一次赌注,变成一道算术。月之暗面曾用约 460 万美元训出 K2 Thinking,在部分基准上压过 GPT-5 与 Claude 4.5,把梁文锋那套幻方量化出身、拿训练当工程问题来抠成本的基因摊在了明面上;智谱今年 1 月成为中国首家完成 IPO 的大模型公司,又把全系压到 MIT 开源。这些原本是新闻里彼此无关的独立事件,此刻在企业的采购表上合流成同一句话:日常那部分,换过去,成本减半,活照干。
一次被推走的切换,和一次算账走的切换
同一周还有另一条切换,方向看似一致,成因截然不同,必须掰开。
7 月 3 日传出,阿里巴巴内部通知全员卸载 Claude 全系——Sonnet、Opus、Fable 连同 Claude Code 在内的 agent 产品,7 月 10 日正式生效[10][11]。导火索不是价格。据报,Anthropic 于 6 月向美国参议院递交信函,指控阿里在 4 月下旬到 6 月初用约 2.5 万个虚假账号、与 Claude 完成超过 2800 万次交互,单方面定性为「工业级模型蒸馏」,并把它抬到国家安全层面[11]。这是一次被地缘和合规推着走的切换:你不用它,是因为你被指控滥用它、或它开始按时区和域名清单盯着你。
Coinbase 那条,是被账本拉着走的切换:你不用它,是因为你算清了同样的活换个模型只要一半钱。
两条并到一处看,闭源大厂的处境才显出全貌——一侧是把它踢出门的合规高墙,另一侧是把它挤下默认位的成本洼地。前者关乎特定市场的准入,后者关乎全球每一张采购表上「默认填谁」这一格。真正动摇收入底盘的,是后者:它不吵不闹,不上新闻头条,只是把网关配置里的一行默认值改掉。
但这道账,不是谁都算得平
这道洼地看着谁都能往里跳,其实设了不低的门槛。Coinbase 能在一个下午改掉默认值,前提是它早就有那道内部网关——一套自建的模型中间件,能识别任务难度、能做路由、能管缓存。这套东西本身是平台工程的产物,背后站着一支常年养着的基础设施团队。对多数没有 MLOps 班底的公司,切换的第一步不是「换个便宜模型」,而是「先把这层中间件建起来」,而这层的建设与值守成本,恰恰不出现在阿姆斯特朗那张省钱的收据上。
自托管开源权重是同一枚硬币的背面。MIT 许可给了你下载、改、随便部署的自由,也把 GPU 运维、版本升级、安全补丁、故障值守一并塞进了你的账本。省下的是 API 单价,换来的是一份新的工程人力开支——对调用量足够大的公司,这笔置换划算得惊人;对用量还没爬到临界点的公司,省下的钱未必填得平多雇几个人的窟窿。省钱从来不是「换模型」四个字,而是「养得起一支能把模型伺候明白的队伍」。
还有一道更硬的墙,反而是闭源溢价的来源。金融、医疗、政府这类客户,要的从来不只是模型答得对,而是一纸可追责的供应商合同、一套过得了内部风控的合规背书——数据能不能出域、事故谁来兜底、审计怎么留痕。把敏感数据随手路由给一个自托管的开源模型,很多行业的合规官第一关就不放行。这批客户恰恰是闭源收入里最稳、最不敏感于单价的一块——洼地淹不到他们。
于是这道成本洼地,眼下先淹掉的是那些既有工程能力自建中间件、又有足够用量摊平门槛的科技公司。可问题也正在这里:过去两年,恰恰是这批公司贡献了闭源最凶猛的用量增量。被成本账挤走的,不是边缘的小客户,而是增长曲线上最陡的那一段。
闭源方也在降价,这本身就是招供
被侵蚀的一方并非没有反应。反应本身,恰恰是最好的证词。
Claude Sonnet 5 于 6 月 30 日发布,直接成为免费和 Pro 计划的默认模型;SWE-bench Pro 63.2 分紧咬 Opus 4.8 的 69.2 分,却只卖大约 Opus 四成的价,还配上百万 token 上下文,且给出到 8 月底的引入期特价:每百万输入 2 美元、输出 10 美元[8][9]。把自家次旗舰的价压到旗舰的四成、能力却逼到咫尺,这不是常规迭代,是守价保份额——用更便宜的闭源,去堵开源撬开的那道口子。
价格战一旦从对手之间打到自家产品线内部,故事就变了。它等于承认:那条最厚的日常需求曲线,已经不肯为顶配溢价买单;要留住它,只能自己先把价砍下来。降价保住的是用量,让渡掉的是单价——而近万亿美元的估值,恰恰是拿「高单价 × 高留存」这个乘积撑起来的。
更麻烦的是价格的向下传导。次旗舰被压到旗舰四成、能力却只差几分,等于给自家整条价格梯子重新贴了标签:当买家发现花四成的钱能拿到九成的活,旗舰那六成的溢价就得回答一个新问题——凭什么。开源在最下面一档托住了地板,Sonnet 5 又从中间抽掉了一级,两头一挤,Opus 那一档的定价空间是被自己人和对手合力顶薄的。降一次价容易,难的是降完之后,再没有一个价位能稳稳地对应「非我不可」。
定价权松动,松在收入结构最厚的那一档
把镜头拉到估值上收束,才看清裂缝开在哪。
据 5 月 28 日的 Series H 披露,Anthropic 以约 650 亿美元融资、投后估值约 9650 亿美元,一度成为估值最高的私营 AI 公司,略微领先 OpenAI[12][14];6 月已就 IPO 向 SEC 递交保密版 S-1[14]。据报其 Q2 营收约 109 亿美元、近乎 Q1 的两倍,并录得约 5.59 亿美元的首个季度经营利润——但公司同时告知投资人这一盈利不可持续,后续步入稳态、月度算力开支据称高达约 12.5 亿美元的合约会重新吞掉利润[13]。海对岸,OpenAI 据报正筹备最早今年 9 月上市、目标估值超 1 万亿美元,却仍预计 2026 年亏损约 140 亿美元、2029 至 2030 年前不指望盈利[15]。
这些数字之所以吓人,是因为它们背后站着一个假设:闭源模型是企业的「默认档位」,默认带来留存,留存带来指数级的 token 用量,用量最终填平天文数字的算力承诺。Coinbase 那张收据,恰恰是对这个假设的定点爆破——它证明了默认地位可以在一个下午、由一行网关配置改写,而且改写之后,用量不降反升、只是钱流去了别处。
闭源没有输掉能力。最难的那些活——需要顶尖推理、需要长程不跑偏、需要为一次关键判断兜底——企业仍会把它们留给 Opus 和 GPT 的最强档,并为之付溢价,这是真实的、也会长期存在的需求。但「默认」这个词,含金量正在被抽走:它从「所有请求先问我」退成「最难的少数请求才问我」。一家公司九成日常调用与一成硬骨头调用之间的那条分界线,原本整条画在闭源一侧,如今正被一根网关的路由规则,一寸寸往上推。
估值叙事赌的从来不是 63.2 还是 69.2,而是那条分界线画在哪里。它每往上挪一格,近万亿美元里就有一块地基被悄悄抽走——不响,却在沉。