Anthropic在6月30日正式發佈了Claude Sonnet 5,一款定位中端但能力大幅躍升的模型。在衡量代理能力的SWE-bench Pro測試中,Sonnet 5取得了63.2分,與旗艦模型Opus 4.8的69.2分僅差6分。而在研究生級推理測試GPQA-AAA v2上,Sonnet 5的表現甚至壓過了Opus 4.8。

定價策略是本次發佈最受市場關注的信號。優惠期內,Sonnet 5每百萬輸入token收費2美元,輸出收費10美元;相比之下,Opus 4.8的對應價格分別為5美元25美元。這意味著用戶可以用旗艦模型約四到六成的成本,獲得其九成以上的能力。

這條消息迅速在資本市場引發連鎖反應。發佈當天,美國半導體指數上漲近4%。這並非孤立事件,而是過去三年AI敘事中一個反覆出現的悖論的最新註腳:模型推理效率的提升並未如預期般削減芯片需求,反而持續推高了算力與存儲的總消耗。

從成本曲線看,AI模型的降價幅度堪稱劇烈。自2022年GPT-4級別API調用成本約每千token 0.03美元起,到2025年,同等性能模型的價格已下降約280倍,若計入開源與效率提升的綜合效應,業界公認的降幅達到1000倍。Anthropic此次定價只是這股浪潮的一部分。Google的Gemini Omni Flash視頻生成每秒僅0.10美元,DeepSeek-V4-Pro將百萬token輸入價格壓至0.035美元水平,而階躍開源的推測解碼技術JetSpec更可將大模型推理速度提升近10倍。

然而,需求端的爆發完全吞噬了效率紅利。2024年全球企業生成式AI總支出約115億美元,2025年飆升至370億美元,年增幅達320%。AT&T目前日處理270億token,而18個月前僅為8億。一家美國大型醫保公司的月token消耗從300萬激增至1.5億以上。應用擴散、單應用深度增加以及模型複雜度升級三重因素疊加,使得token消耗量每兩個月翻一倍。

這種需求爆炸直接傳導至硬件層。DRAMNAND Flash現貨價格自2025年三季度起累計漲幅均超300%,DDR5顆粒單月漲幅一度突破90%。進入2026年,一季度DRAM合約價漲幅從預期的55%-60%被上修至90%-95%,二季度預測再漲58%-63%。三星存儲在2025年四季度錄得單季營業利潤歷史新高,突破20萬億韓元。高盛5月報告預測,2026年至2031年全球AI基礎設施累計資本支出約7.6萬億美元,單年支出將從7650億美元攀升至1.6萬億。

這一現象的本質,早在1865年就被經濟學家威廉·斯坦利·傑文斯闡明。他觀察到瓦特改良蒸汽機後,單位煤耗下降反而推高了英國煤炭總消費,因為效率提升使蒸汽動力在更多行業變得經濟可行。如今,當token成本降至千分之一,企業用掉的token數增長了數萬倍,原先不可行的實時推理、個性化生成等場景全部轉化為剛需。

AI雲公司Nebius的經歷極具代表性。今年1月DeepSeek發佈R1引發算力需求坍縮恐慌時,Nebius聯合創始人Roman Chernin回憶,那反而是“銷售最好的一週”,因為客戶看到成本驟降後,第一反應是終於可以大規模部署推理了。這揭示了一個結構性推力:模型降價催生毛利率正反饋——軟件優化持續壓低推理成本,定價調整滯後,毛利率從10%攀升至90%的速度遠超傳統行業,利潤再投入採購,形成自我強化的循環。

硬件端的不可替代性進一步放大了這一趨勢。模型本身可替代——從GPT到Claude到開源模型,封鎖與替代此起彼伏。但GPUDRAM、晶圓廠建設週期以年為單位,光刻機產能存在物理上限,這些不受軟件優化影響。AI模型降價的終點,並非去算力化,而是算力定價權的再集中。無論用戶使用誰的模型,token最終都運行在某人的芯片上,模型廠商的價格戰,持續轉化為數據中心、晶圓廠和存儲產線的收入。