Coinbase 换用中国开源模型后，AI 开支到底降了多少？

据 Coinbase 披露，把 GLM 5.2 与 Kimi 2.7 经内部网关设为工程师默认、配合智能路由与缓存后，AI 开支砍去近一半，而 token 用量同期创下新高。缓存命中率从 5% 提到 60%，等于同一批调用里六成不再重新计费。

闭源模型是不是已经被开源追上了？

在最难的任务上没有。Claude Sonnet 5 在 SWE-bench Pro 上拿 63.2 分、Opus 4.8 拿 69.2 分，仍是第一梯队；GLM-5.2 与之只差几分。变化的不是「谁最强」，而是「日常任务够用就好」的部分被开源以约六分之一的成本接走了。

企业把默认模型换成开源，主要省在哪里？

省在单位经济学：一是模型单价，GLM 5.2 每百万输入 token 约 1.40 美元、Opus 4.8 约 5 美元；二是智能路由，让简单请求走便宜模型；三是缓存，把重复前缀的调用变成近乎免费。三者叠加，账单才会在用量上涨时反而下降。

阿里禁用 Claude 是因为它太贵吗？

不是。阿里 7 月 10 日生效的禁令是合规与地缘驱动，导火索是 Anthropic 6 月向美国参议院递交信函、指控阿里用约 2.5 万个虚假账号做「工业级蒸馏」。这条切换和 Coinbase 的成本切换要分开看：一个是被推走，一个是主动算账走。

这对闭源大厂近万亿美元的估值意味着什么？

估值押的是「默认地位」带来的留存和用量。当企业把闭源从默认档位降为关键少数任务的溢价选项，收入底盘里最厚的那层日常调用就在流失。能力仍领先，但「值不值那个价」的答案变了，这才是估值叙事真正的裂缝。

当默认模型不再是 Claude：企业把中国开源换成首选，闭源大厂的定价权正在松动 · 深度报道

榜单还是那张榜单。六月底，Anthropic 把 Claude Sonnet 5 推上台面，SWE-bench Pro 拿下 63.2 分，同门更贵的 Opus 4.8 是 69.2 分，两者稳坐真实软件工程任务的第一梯队^[8]^[9]。按照过去三年的剧本，照例该轮到各家企业排队续费、用量曲线继续往右上角爬。

可就在同一周，Coinbase 的工程师打开 IDE，敲下的每一个 AI 请求，默认已经不再流向 Claude。它们先撞上一道内部网关，被分派给两个中国实验室的开源权重模型——智谱的 GLM 5.2 和月之暗面的 Kimi 2.7。CEO 布莱恩·阿姆斯特朗在 6 月 29 日把这件事摊开：AI 账单砍掉近一半，而 token 消耗量创下历史新高^[1]^[2]。

一个模型仍是榜单冠军，采购却在静默地离它而去。这中间隔着的，不是「谁分数高」，而是一笔被算清了的账。

一张能力上并不落后、账单却相反的收据

这笔账究竟省在哪，决定了后面所有故事的走向。

阿姆斯特朗给出的不是「我们忍痛降级换便宜货」，而是一套让开支和用量脱钩的做法。其一是模型单价：GLM 5.2 每百万输入 token 约 1.40 美元、每百万输出约 4.40 美元；Anthropic Opus 4.8 对应是 5 美元和 25 美元——输出端贵了近六倍^[1]。其二是智能路由，内部网关按任务难度把请求分派给最划算的模型，难的才往上送。其三是缓存：命中率从 5% 拉到 60%，同一批调用里六成不再重新计费，阿姆斯特朗称之为「12 倍的改善」^[1]。

三样叠起来，才有了那张反直觉的收据——用量创新高，账单反而下探。

真正扎人的是他随口带出的一个数字：91% 的开发者从未触到过此前的用量上限^[1]。这句话把过去两年的采购逻辑掀了个底朝天。企业买闭源顶配，买的其实是安全感，是「谁都别被限流」的冗余，而九成人根本用不到那个天花板。为一成人的峰值，付十成人的溢价——当有人第一次把这行账目念出来，它就再也遮不住了。

把开源接进来，为什么在 2026 年成了理性选择

省钱的账人人会算，难的是「省了之后活还干得动吗」。让这道题在今年翻面的，是供给侧的两级台阶。

GLM-5.2 是第一级。它是一个总参数约 7530 亿、每次只激活约 400 亿的混合专家模型，百万 token 上下文，权重按 MIT 许可完全放开——最宽松的那一档，企业可以下载、自托管、随便改，不必看任何人脸色^[3]^[4]。它引入的 IndexShare 稀疏注意力，让每 4 层共用一套轻量索引器，在百万上下文长度下把单 token 算力压掉约 2.9 倍^[4]。落到结果上，它在长程编码、前端设计、agent 工具调用这些活上超过 GPT-5.5，与 Opus 4.8 只差几分，而 API 成本约为前者的六分之一^[3]。开发者西蒙·威利森的判断更直接：这大概是当下最强的纯文本开源权重模型^[5]。

DeepSeek V4 是第二级，把选择摊成一个货架。旗舰 Pro 版总参 1.6 万亿、激活 490 亿；轻量 Flash 版总参 2840 亿、激活 130 亿，两者都带百万 token 上下文^[6]^[7]。价格更是把「日常任务够用就好」写进了标价单：促销档下 Pro 每百万输入低到 0.435 美元、输出 0.87 美元，Flash 更薄；命中缓存前缀的部分只按标准输入价的十分之一计^[6]。企业要的从来不是一个「最强模型」，而是一整排「按难度取用」的档位——这排货架一摆齐，智能路由才有东西可路由。

于是切换从一次赌注，变成一道算术。月之暗面曾用约 460 万美元训出 K2 Thinking，在部分基准上压过 GPT-5 与 Claude 4.5，把梁文锋那套幻方量化出身、拿训练当工程问题来抠成本的基因摊在了明面上；智谱今年 1 月成为中国首家完成 IPO 的大模型公司，又把全系压到 MIT 开源。这些原本是新闻里彼此无关的独立事件，此刻在企业的采购表上合流成同一句话：日常那部分，换过去，成本减半，活照干。

一次被推走的切换，和一次算账走的切换

同一周还有另一条切换，方向看似一致，成因截然不同，必须掰开。

7 月 3 日传出，阿里巴巴内部通知全员卸载 Claude 全系——Sonnet、Opus、Fable 连同 Claude Code 在内的 agent 产品，7 月 10 日正式生效^[10]^[11]。导火索不是价格。据报，Anthropic 于 6 月向美国参议院递交信函，指控阿里在 4 月下旬到 6 月初用约 2.5 万个虚假账号、与 Claude 完成超过 2800 万次交互，单方面定性为「工业级模型蒸馏」，并把它抬到国家安全层面^[11]。这是一次被地缘和合规推着走的切换：你不用它，是因为你被指控滥用它、或它开始按时区和域名清单盯着你。

Coinbase 那条，是被账本拉着走的切换：你不用它，是因为你算清了同样的活换个模型只要一半钱。

两条并到一处看，闭源大厂的处境才显出全貌——一侧是把它踢出门的合规高墙，另一侧是把它挤下默认位的成本洼地。前者关乎特定市场的准入，后者关乎全球每一张采购表上「默认填谁」这一格。真正动摇收入底盘的，是后者：它不吵不闹，不上新闻头条，只是把网关配置里的一行默认值改掉。

但这道账，不是谁都算得平

这道洼地看着谁都能往里跳，其实设了不低的门槛。Coinbase 能在一个下午改掉默认值，前提是它早就有那道内部网关——一套自建的模型中间件，能识别任务难度、能做路由、能管缓存。这套东西本身是平台工程的产物，背后站着一支常年养着的基础设施团队。对多数没有 MLOps 班底的公司，切换的第一步不是「换个便宜模型」，而是「先把这层中间件建起来」，而这层的建设与值守成本，恰恰不出现在阿姆斯特朗那张省钱的收据上。

自托管开源权重是同一枚硬币的背面。MIT 许可给了你下载、改、随便部署的自由，也把 GPU 运维、版本升级、安全补丁、故障值守一并塞进了你的账本。省下的是 API 单价，换来的是一份新的工程人力开支——对调用量足够大的公司，这笔置换划算得惊人；对用量还没爬到临界点的公司，省下的钱未必填得平多雇几个人的窟窿。省钱从来不是「换模型」四个字，而是「养得起一支能把模型伺候明白的队伍」。

还有一道更硬的墙，反而是闭源溢价的来源。金融、医疗、政府这类客户，要的从来不只是模型答得对，而是一纸可追责的供应商合同、一套过得了内部风控的合规背书——数据能不能出域、事故谁来兜底、审计怎么留痕。把敏感数据随手路由给一个自托管的开源模型，很多行业的合规官第一关就不放行。这批客户恰恰是闭源收入里最稳、最不敏感于单价的一块——洼地淹不到他们。

于是这道成本洼地，眼下先淹掉的是那些既有工程能力自建中间件、又有足够用量摊平门槛的科技公司。可问题也正在这里：过去两年，恰恰是这批公司贡献了闭源最凶猛的用量增量。被成本账挤走的，不是边缘的小客户，而是增长曲线上最陡的那一段。

闭源方也在降价，这本身就是招供

被侵蚀的一方并非没有反应。反应本身，恰恰是最好的证词。

Claude Sonnet 5 于 6 月 30 日发布，直接成为免费和 Pro 计划的默认模型；SWE-bench Pro 63.2 分紧咬 Opus 4.8 的 69.2 分，却只卖大约 Opus 四成的价，还配上百万 token 上下文，且给出到 8 月底的引入期特价：每百万输入 2 美元、输出 10 美元^[8]^[9]。把自家次旗舰的价压到旗舰的四成、能力却逼到咫尺，这不是常规迭代，是守价保份额——用更便宜的闭源，去堵开源撬开的那道口子。

价格战一旦从对手之间打到自家产品线内部，故事就变了。它等于承认：那条最厚的日常需求曲线，已经不肯为顶配溢价买单；要留住它，只能自己先把价砍下来。降价保住的是用量，让渡掉的是单价——而近万亿美元的估值，恰恰是拿「高单价 × 高留存」这个乘积撑起来的。

更麻烦的是价格的向下传导。次旗舰被压到旗舰四成、能力却只差几分，等于给自家整条价格梯子重新贴了标签：当买家发现花四成的钱能拿到九成的活，旗舰那六成的溢价就得回答一个新问题——凭什么。开源在最下面一档托住了地板，Sonnet 5 又从中间抽掉了一级，两头一挤，Opus 那一档的定价空间是被自己人和对手合力顶薄的。降一次价容易，难的是降完之后，再没有一个价位能稳稳地对应「非我不可」。

定价权松动，松在收入结构最厚的那一档

把镜头拉到估值上收束，才看清裂缝开在哪。

据 5 月 28 日的 Series H 披露，Anthropic 以约 650 亿美元融资、投后估值约 9650 亿美元，一度成为估值最高的私营 AI 公司，略微领先 OpenAI^[12]^[14]；6 月已就 IPO 向 SEC 递交保密版 S-1^[14]。据报其 Q2 营收约 109 亿美元、近乎 Q1 的两倍，并录得约 5.59 亿美元的首个季度经营利润——但公司同时告知投资人这一盈利不可持续，后续步入稳态、月度算力开支据称高达约 12.5 亿美元的合约会重新吞掉利润^[13]。海对岸，OpenAI 据报正筹备最早今年 9 月上市、目标估值超 1 万亿美元，却仍预计 2026 年亏损约 140 亿美元、2029 至 2030 年前不指望盈利^[15]。

这些数字之所以吓人，是因为它们背后站着一个假设：闭源模型是企业的「默认档位」，默认带来留存，留存带来指数级的 token 用量，用量最终填平天文数字的算力承诺。Coinbase 那张收据，恰恰是对这个假设的定点爆破——它证明了默认地位可以在一个下午、由一行网关配置改写，而且改写之后，用量不降反升、只是钱流去了别处。

闭源没有输掉能力。最难的那些活——需要顶尖推理、需要长程不跑偏、需要为一次关键判断兜底——企业仍会把它们留给 Opus 和 GPT 的最强档，并为之付溢价，这是真实的、也会长期存在的需求。但「默认」这个词，含金量正在被抽走：它从「所有请求先问我」退成「最难的少数请求才问我」。一家公司九成日常调用与一成硬骨头调用之间的那条分界线，原本整条画在闭源一侧，如今正被一根网关的路由规则，一寸寸往上推。

估值叙事赌的从来不是 63.2 还是 69.2，而是那条分界线画在哪里。它每往上挪一格，近万亿美元里就有一块地基被悄悄抽走——不响，却在沉。

当默认模型不再是 Claude：企业把中国开源换成首选，闭源大厂的定价权正在松动

一张能力上并不落后、账单却相反的收据

把开源接进来，为什么在 2026 年成了理性选择

一次被推走的切换，和一次算账走的切换

但这道账，不是谁都算得平

闭源方也在降价，这本身就是招供

定价权松动，松在收入结构最厚的那一档

常见问题

参考来源

一张能力上并不落后、账单却相反的收据

把开源接进来，为什么在 2026 年成了理性选择

一次被推走的切换，和一次算账走的切换

但这道账，不是谁都算得平

闭源方也在降价，这本身就是招供

定价权松动，松在收入结构最厚的那一档

常见问题

参考来源

同系列往期 查看完整系列 →

相关每日新闻

同系列往期查看完整系列 →