Anthropic發佈Claude Sonnet 5：性能逼近旗艦，定價僅四到六成

Anthropic推出中端模型Claude Sonnet 5，以旗艦Opus 4.8四到六成價格實現九成以上性能。

Anthropic在6月30日正式發佈了Claude Sonnet 5，一款定位中端但能力大幅躍升的模型。在衡量代理能力的SWE-bench Pro測試中，Sonnet 5取得了63.2分，與旗艦模型Opus 4.8的69.2分僅差6分。而在研究生級推理測試GPQA-AAA v2上，Sonnet 5的表現甚至壓過了Opus 4.8。

定價策略是本次發佈最受市場關注的信號。優惠期內，Sonnet 5每百萬輸入token收費2美元，輸出收費10美元；相比之下，Opus 4.8的對應價格分別為5美元和25美元。這意味著用戶可以用旗艦模型約四到六成的成本，獲得其九成以上的能力。

這條消息迅速在資本市場引發連鎖反應。發佈當天，美國半導體指數上漲近4%。這並非孤立事件，而是過去三年AI敘事中一個反覆出現的悖論的最新註腳：模型推理效率的提升並未如預期般削減芯片需求，反而持續推高了算力與存儲的總消耗。

從成本曲線看，AI模型的降價幅度堪稱劇烈。自2022年GPT-4級別API調用成本約每千token 0.03美元起，到2025年，同等性能模型的價格已下降約280倍，若計入開源與效率提升的綜合效應，業界公認的降幅達到1000倍。Anthropic此次定價只是這股浪潮的一部分。Google的Gemini Omni Flash視頻生成每秒僅0.10美元，DeepSeek-V4-Pro將百萬token輸入價格壓至0.035美元水平，而階躍開源的推測解碼技術JetSpec更可將大模型推理速度提升近10倍。

然而，需求端的爆發完全吞噬了效率紅利。2024年全球企業生成式AI總支出約115億美元，2025年飆升至370億美元，年增幅達320%。AT&T目前日處理270億token，而18個月前僅為8億。一家美國大型醫保公司的月token消耗從300萬激增至1.5億以上。應用擴散、單應用深度增加以及模型複雜度升級三重因素疊加，使得token消耗量每兩個月翻一倍。

這種需求爆炸直接傳導至硬件層。DRAM和NAND Flash現貨價格自2025年三季度起累計漲幅均超300%，DDR5顆粒單月漲幅一度突破90%。進入2026年，一季度DRAM合約價漲幅從預期的55%-60%被上修至90%-95%，二季度預測再漲58%-63%。三星存儲在2025年四季度錄得單季營業利潤歷史新高，突破20萬億韓元。高盛5月報告預測，2026年至2031年全球AI基礎設施累計資本支出約7.6萬億美元，單年支出將從7650億美元攀升至1.6萬億。

這一現象的本質，早在1865年就被經濟學家威廉·斯坦利·傑文斯闡明。他觀察到瓦特改良蒸汽機後，單位煤耗下降反而推高了英國煤炭總消費，因為效率提升使蒸汽動力在更多行業變得經濟可行。如今，當token成本降至千分之一，企業用掉的token數增長了數萬倍，原先不可行的實時推理、個性化生成等場景全部轉化為剛需。

AI雲公司Nebius的經歷極具代表性。今年1月DeepSeek發佈R1引發算力需求坍縮恐慌時，Nebius聯合創始人Roman Chernin回憶，那反而是“銷售最好的一週”，因為客戶看到成本驟降後，第一反應是終於可以大規模部署推理了。這揭示了一個結構性推力：模型降價催生毛利率正反饋——軟件優化持續壓低推理成本，定價調整滯後，毛利率從10%攀升至90%的速度遠超傳統行業，利潤再投入採購，形成自我強化的循環。

硬件端的不可替代性進一步放大了這一趨勢。模型本身可替代——從GPT到Claude到開源模型，封鎖與替代此起彼伏。但GPU、DRAM、晶圓廠建設週期以年為單位，光刻機產能存在物理上限，這些不受軟件優化影響。AI模型降價的終點，並非去算力化，而是算力定價權的再集中。無論用戶使用誰的模型，token最終都運行在某人的芯片上，模型廠商的價格戰，持續轉化為數據中心、晶圓廠和存儲產線的收入。

Anthropic發佈Claude Sonnet 5：性能逼近旗艦，定價僅四到六成

延伸閱讀

相關深度報道

相關每日新聞