榜單還是那張榜單。六月底,Anthropic 把 Claude Sonnet 5 推上臺面,SWE-bench Pro 拿下 63.2 分,同門更貴的 Opus 4.8 是 69.2 分,兩者穩坐真實軟件工程任務的第一梯隊[8][9]。按照過去三年的劇本,照例該輪到各家企業排隊續費、用量曲線繼續往右上角爬。
可就在同一周,Coinbase 的工程師打開 IDE,敲下的每一個 AI 請求,默認已經不再流向 Claude。它們先撞上一道內部網關,被分派給兩個中國實驗室的開源權重模型——智譜的 GLM 5.2 和月之暗面的 Kimi 2.7。CEO 布萊恩·阿姆斯特朗在 6 月 29 日把這件事攤開:AI 賬單砍掉近一半,而 token 消耗量創下歷史新高[1][2]。
一個模型仍是榜單冠軍,採購卻在靜默地離它而去。這中間隔著的,不是「誰分數高」,而是一筆被算清了的賬。
一張能力上並不落後、賬單卻相反的收據
這筆賬究竟省在哪,決定了後面所有故事的走向。
阿姆斯特朗給出的不是「我們忍痛降級換便宜貨」,而是一套讓開支和用量脫鉤的做法。其一是模型單價:GLM 5.2 每百萬輸入 token 約 1.40 美元、每百萬輸出約 4.40 美元;Anthropic Opus 4.8 對應是 5 美元和 25 美元——輸出端貴了近六倍[1]。其二是智能路由,內部網關按任務難度把請求分派給最划算的模型,難的才往上送。其三是緩存:命中率從 5% 拉到 60%,同一批調用裡六成不再重新計費,阿姆斯特朗稱之為「12 倍的改善」[1]。
三樣疊起來,才有了那張反直覺的收據——用量創新高,賬單反而下探。
真正扎人的是他隨口帶出的一個數字:91% 的開發者從未觸到過此前的用量上限[1]。這句話把過去兩年的採購邏輯掀了個底朝天。企業買閉源頂配,買的其實是安全感,是「誰都別被限流」的冗餘,而九成人根本用不到那個天花板。為一成人的峰值,付十成人的溢價——當有人第一次把這行賬目念出來,它就再也遮不住了。
把開源接進來,為什麼在 2026 年成了理性選擇
省錢的賬人人會算,難的是「省了之後活還幹得動嗎」。讓這道題在今年翻面的,是供給側的兩級臺階。
GLM-5.2 是第一級。它是一個總參數約 7530 億、每次只激活約 400 億的混合專家模型,百萬 token 上下文,權重按 MIT 許可完全放開——最寬鬆的那一檔,企業可以下載、自託管、隨便改,不必看任何人臉色[3][4]。它引入的 IndexShare 稀疏注意力,讓每 4 層共用一套輕量索引器,在百萬上下文長度下把單 token 算力壓掉約 2.9 倍[4]。落到結果上,它在長程編碼、前端設計、agent 工具調用這些活上超過 GPT-5.5,與 Opus 4.8 只差幾分,而 API 成本約為前者的六分之一[3]。開發者西蒙·威利森的判斷更直接:這大概是當下最強的純文本開源權重模型[5]。
DeepSeek V4 是第二級,把選擇攤成一個貨架。旗艦 Pro 版總參 1.6 萬億、激活 490 億;輕量 Flash 版總參 2840 億、激活 130 億,兩者都帶百萬 token 上下文[6][7]。價格更是把「日常任務夠用就好」寫進了標價單:促銷檔下 Pro 每百萬輸入低到 0.435 美元、輸出 0.87 美元,Flash 更薄;命中緩存前綴的部分只按標準輸入價的十分之一計[6]。企業要的從來不是一個「最強模型」,而是一整排「按難度取用」的檔位——這排貨架一擺齊,智能路由才有東西可路由。
於是切換從一次賭注,變成一道算術。月之暗面曾用約 460 萬美元訓出 K2 Thinking,在部分基準上壓過 GPT-5 與 Claude 4.5,把梁文鋒那套幻方量化出身、拿訓練當工程問題來摳成本的基因攤在了明面上;智譜今年 1 月成為中國首家完成 IPO 的大模型公司,又把全系壓到 MIT 開源。這些原本是新聞裡彼此無關的獨立事件,此刻在企業的採購表上合流成同一句話:日常那部分,換過去,成本減半,活照幹。
一次被推走的切換,和一次算賬走的切換
同一周還有另一條切換,方向看似一致,成因截然不同,必須掰開。
7 月 3 日傳出,阿里巴巴內部通知全員卸載 Claude 全系——Sonnet、Opus、Fable 連同 Claude Code 在內的 agent 產品,7 月 10 日正式生效[10][11]。導火索不是價格。據報,Anthropic 於 6 月向美國參議院遞交信函,指控阿里在 4 月下旬到 6 月初用約 2.5 萬個虛假賬號、與 Claude 完成超過 2800 萬次交互,單方面定性為「工業級模型蒸餾」,並把它抬到國家安全層面[11]。這是一次被地緣和合規推著走的切換:你不用它,是因為你被指控濫用它、或它開始按時區和域名清單盯著你。
Coinbase 那條,是被賬本拉著走的切換:你不用它,是因為你算清了同樣的活換個模型只要一半錢。
兩條併到一處看,閉源大廠的處境才顯出全貌——一側是把它踢出門的合規高牆,另一側是把它擠下默認位的成本窪地。前者關乎特定市場的准入,後者關乎全球每一張採購表上「默認填誰」這一格。真正動搖收入底盤的,是後者:它不吵不鬧,不上新聞頭條,只是把網關配置裡的一行默認值改掉。
但這道賬,不是誰都算得平
這道窪地看著誰都能往裡跳,其實設了不低的門檻。Coinbase 能在一個下午改掉默認值,前提是它早就有那道內部網關——一套自建的模型中間件,能識別任務難度、能做路由、能管緩存。這套東西本身是平臺工程的產物,背後站著一支常年養著的基礎設施團隊。對多數沒有 MLOps 班底的公司,切換的第一步不是「換個便宜模型」,而是「先把這層中間件建起來」,而這層的建設與值守成本,恰恰不出現在阿姆斯特朗那張省錢的收據上。
自託管開源權重是同一枚硬幣的背面。MIT 許可給了你下載、改、隨便部署的自由,也把 GPU 運維、版本升級、安全補丁、故障值守一併塞進了你的賬本。省下的是 API 單價,換來的是一份新的工程人力開支——對調用量足夠大的公司,這筆置換划算得驚人;對用量還沒爬到臨界點的公司,省下的錢未必填得平多僱幾個人的窟窿。省錢從來不是「換模型」四個字,而是「養得起一支能把模型伺候明白的隊伍」。
還有一道更硬的牆,反而是閉源溢價的來源。金融、醫療、政府這類客戶,要的從來不只是模型答得對,而是一紙可追責的供應商合同、一套過得了內部風控的合規背書——數據能不能出域、事故誰來兜底、審計怎麼留痕。把敏感數據隨手路由給一個自託管的開源模型,很多行業的合規官第一關就不放行。這批客戶恰恰是閉源收入裡最穩、最不敏感於單價的一塊——窪地淹不到他們。
於是這道成本窪地,眼下先淹掉的是那些既有工程能力自建中間件、又有足夠用量攤平門檻的科技公司。可問題也正在這裡:過去兩年,恰恰是這批公司貢獻了閉源最兇猛的用量增量。被成本賬擠走的,不是邊緣的小客戶,而是增長曲線上最陡的那一段。
閉源方也在降價,這本身就是招供
被侵蝕的一方並非沒有反應。反應本身,恰恰是最好的證詞。
Claude Sonnet 5 於 6 月 30 日發佈,直接成為免費和 Pro 計劃的默認模型;SWE-bench Pro 63.2 分緊咬 Opus 4.8 的 69.2 分,卻只賣大約 Opus 四成的價,還配上百萬 token 上下文,且給出到 8 月底的引入期特價:每百萬輸入 2 美元、輸出 10 美元[8][9]。把自家次旗艦的價壓到旗艦的四成、能力卻逼到咫尺,這不是常規迭代,是守價保份額——用更便宜的閉源,去堵開源撬開的那道口子。
價格戰一旦從對手之間打到自家產品線內部,故事就變了。它等於承認:那條最厚的日常需求曲線,已經不肯為頂配溢價買單;要留住它,只能自己先把價砍下來。降價保住的是用量,讓渡掉的是單價——而近萬億美元的估值,恰恰是拿「高單價 × 高留存」這個乘積撐起來的。
更麻煩的是價格的向下傳導。次旗艦被壓到旗艦四成、能力卻只差幾分,等於給自家整條價格梯子重新貼了標籤:當買家發現花四成的錢能拿到九成的活,旗艦那六成的溢價就得回答一個新問題——憑什麼。開源在最下面一檔托住了地板,Sonnet 5 又從中間抽掉了一級,兩頭一擠,Opus 那一檔的定價空間是被自己人和對手合力頂薄的。降一次價容易,難的是降完之後,再沒有一個價位能穩穩地對應「非我不可」。
定價權鬆動,松在收入結構最厚的那一檔
把鏡頭拉到估值上收束,才看清裂縫開在哪。
據 5 月 28 日的 Series H 披露,Anthropic 以約 650 億美元融資、投後估值約 9650 億美元,一度成為估值最高的私營 AI 公司,略微領先 OpenAI[12][14];6 月已就 IPO 向 SEC 遞交保密版 S-1[14]。據報其 Q2 營收約 109 億美元、近乎 Q1 的兩倍,並錄得約 5.59 億美元的首個季度經營利潤——但公司同時告知投資人這一盈利不可持續,後續步入穩態、月度算力開支據稱高達約 12.5 億美元的合約會重新吞掉利潤[13]。海對岸,OpenAI 據報正籌備最早今年 9 月上市、目標估值超 1 萬億美元,卻仍預計 2026 年虧損約 140 億美元、2029 至 2030 年前不指望盈利[15]。
這些數字之所以嚇人,是因為它們背後站著一個假設:閉源模型是企業的「默認檔位」,默認帶來留存,留存帶來指數級的 token 用量,用量最終填平天文數字的算力承諾。Coinbase 那張收據,恰恰是對這個假設的定點爆破——它證明了默認地位可以在一個下午、由一行網關配置改寫,而且改寫之後,用量不降反升、只是錢流去了別處。
閉源沒有輸掉能力。最難的那些活——需要頂尖推理、需要長程不跑偏、需要為一次關鍵判斷兜底——企業仍會把它們留給 Opus 和 GPT 的最強檔,併為之付溢價,這是真實的、也會長期存在的需求。但「默認」這個詞,含金量正在被抽走:它從「所有請求先問我」退成「最難的少數請求才問我」。一家公司九成日常調用與一成硬骨頭調用之間的那條分界線,原本整條畫在閉源一側,如今正被一根網關的路由規則,一寸寸往上推。
估值敘事賭的從來不是 63.2 還是 69.2,而是那條分界線畫在哪裡。它每往上挪一格,近萬億美元裡就有一塊地基被悄悄抽走——不響,卻在沉。