美國頭部加密貨幣交易所Coinbase正在將中國開源AI模型深度嵌入其工程體系,這一動作可能為AI基礎設施的成本敘事帶來轉折。
Coinbase首席執行官Brian Armstrong上週五晚間在X平臺發文披露,公司已將智譜旗下最新發布的GLM 5.2以及北京月之暗面旗下的Kimi 2.7,通過內部LLM網關設定為工程師的默認模型。Armstrong表示,在配合路由優化與緩存改進後,Coinbase的AI支出已削減近一半,而token使用量仍在以指數級速度增長。
這一決策背後的邏輯直指成本結構。Armstrong在帖子中明確指出,91%的工程師從未觸及原有的使用上限,因此Coinbase並未選擇降低上限或增設消費提醒,而是直接轉向“更便宜的默認模型”。GLM 5.2與Kimi 2.7均屬開源權重模型,被部署於常規任務場景;對於需要複雜規劃的任務,工程師仍可選用前沿模型。Armstrong的核心理念是:在執行層面使用頂級模型往往是“大材小用”。
在代碼審查環節,Coinbase採用了多模型並行策略,讓不同模型相互校驗輸出結果,以維持質量標準。這意味著中國模型並非孤立運行,而是被嵌入一套更復雜的質量保障流程之中。
Armstrong列出了驅動成本削減的三層基礎設施重構手段。第一是智能路由:在自定義調度框架中,系統對提示詞進行預處理,綜合緩存命中率與模型定價,將任務自動分發至最合適、最經濟的模型。他表示,最終目標是讓AI而非人工來完成模型選擇。第二是積極緩存:Coinbase要求所有請求具備緩存感知能力,儘量複用已有緩存。以LibreChat為例,在正確實施緩存機制後,緩存命中率從5%躍升至60%。第三是精簡上下文:Armstrong建議在切換任務時開啟新會話,縮小文件上下文範圍,斷開未使用的工具連接。他強調,目標不是減少token使用總量,而是減少“被浪費的token”。
Armstrong將此次成本壓縮定性為擴大AI採用規模的前提條件,而非一種限制。工程師仍可自由使用任意數量的token和任意模型,但公司已將用量數據可視化,並將使用量與業務影響掛鉤——“花得越多,我們期望的影響也越大”。他並未披露具體的絕對支出數字,但從結構上看,在使用量指數增長的同時實現支出近半削減,意味著Coinbase已在一定程度上實現了消耗與成本的解耦。
這一案例的產業含義不容忽視。長期以來,美國AI基礎設施層由OpenAI、Anthropic等公司的高成本閉源模型主導,企業級AI部署面臨持續攀升的賬單壓力。Coinbase的做法表明,中國開源模型正在從學術圈和開發者社區走向真實的生產管線,其成本優勢足以讓美國上市公司在核心工程流程中做出默認切換。Armstrong本人也強調,這套方法論具有普適性,任何企業均可借鑑,以便在不將成本設為天花板的前提下實現AI使用規模的可持續擴張。
對於中國AI模型廠商而言,這同樣是一個標誌性時刻。智譜與月之暗面通過此次部署獲得了進入美國主流科技企業生產環境的通道,其模型能力在真實商業場景中經受檢驗。若更多美國企業效仿Coinbase的做法,全球AI模型市場的競爭格局可能從單純的能力比拼,轉向能力與成本效率的雙重較量。