美国头部加密货币交易所Coinbase正在将中国开源AI模型深度嵌入其工程体系,这一动作可能为AI基础设施的成本叙事带来转折。

Coinbase首席执行官Brian Armstrong上周五晚间在X平台发文披露,公司已将智谱旗下最新发布的GLM 5.2以及北京月之暗面旗下的Kimi 2.7,通过内部LLM网关设定为工程师的默认模型。Armstrong表示,在配合路由优化与缓存改进后,Coinbase的AI支出已削减近一半,而token使用量仍在以指数级速度增长。

这一决策背后的逻辑直指成本结构。Armstrong在帖子中明确指出,91%的工程师从未触及原有的使用上限,因此Coinbase并未选择降低上限或增设消费提醒,而是直接转向“更便宜的默认模型”。GLM 5.2与Kimi 2.7均属开源权重模型,被部署于常规任务场景;对于需要复杂规划的任务,工程师仍可选用前沿模型。Armstrong的核心理念是:在执行层面使用顶级模型往往是“大材小用”。

在代码审查环节,Coinbase采用了多模型并行策略,让不同模型相互校验输出结果,以维持质量标准。这意味着中国模型并非孤立运行,而是被嵌入一套更复杂的质量保障流程之中。

Armstrong列出了驱动成本削减的三层基础设施重构手段。第一是智能路由:在自定义调度框架中,系统对提示词进行预处理,综合缓存命中率与模型定价,将任务自动分发至最合适、最经济的模型。他表示,最终目标是让AI而非人工来完成模型选择。第二是积极缓存:Coinbase要求所有请求具备缓存感知能力,尽量复用已有缓存。以LibreChat为例,在正确实施缓存机制后,缓存命中率从5%跃升至60%。第三是精简上下文:Armstrong建议在切换任务时开启新会话,缩小文件上下文范围,断开未使用的工具连接。他强调,目标不是减少token使用总量,而是减少“被浪费的token”。

Armstrong将此次成本压缩定性为扩大AI采用规模的前提条件,而非一种限制。工程师仍可自由使用任意数量的token和任意模型,但公司已将用量数据可视化,并将使用量与业务影响挂钩——“花得越多,我们期望的影响也越大”。他并未披露具体的绝对支出数字,但从结构上看,在使用量指数增长的同时实现支出近半削减,意味着Coinbase已在一定程度上实现了消耗与成本的解耦

这一案例的产业含义不容忽视。长期以来,美国AI基础设施层由OpenAIAnthropic等公司的高成本闭源模型主导,企业级AI部署面临持续攀升的账单压力。Coinbase的做法表明,中国开源模型正在从学术圈和开发者社区走向真实的生产管线,其成本优势足以让美国上市公司在核心工程流程中做出默认切换。Armstrong本人也强调,这套方法论具有普适性,任何企业均可借鉴,以便在不将成本设为天花板的前提下实现AI使用规模的可持续扩张。

对于中国AI模型厂商而言,这同样是一个标志性时刻。智谱与月之暗面通过此次部署获得了进入美国主流科技企业生产环境的通道,其模型能力在真实商业场景中经受检验。若更多美国企业效仿Coinbase的做法,全球AI模型市场的竞争格局可能从单纯的能力比拼,转向能力与成本效率的双重较量