Anthropic在6月30日正式发布了Claude Sonnet 5,一款定位中端但能力大幅跃升的模型。在衡量代理能力的SWE-bench Pro测试中,Sonnet 5取得了63.2分,与旗舰模型Opus 4.8的69.2分仅差6分。而在研究生级推理测试GPQA-AAA v2上,Sonnet 5的表现甚至压过了Opus 4.8。

定价策略是本次发布最受市场关注的信号。优惠期内,Sonnet 5每百万输入token收费2美元,输出收费10美元;相比之下,Opus 4.8的对应价格分别为5美元25美元。这意味着用户可以用旗舰模型约四到六成的成本,获得其九成以上的能力。

这条消息迅速在资本市场引发连锁反应。发布当天,美国半导体指数上涨近4%。这并非孤立事件,而是过去三年AI叙事中一个反复出现的悖论的最新注脚:模型推理效率的提升并未如预期般削减芯片需求,反而持续推高了算力与存储的总消耗。

从成本曲线看,AI模型的降价幅度堪称剧烈。自2022年GPT-4级别API调用成本约每千token 0.03美元起,到2025年,同等性能模型的价格已下降约280倍,若计入开源与效率提升的综合效应,业界公认的降幅达到1000倍。Anthropic此次定价只是这股浪潮的一部分。Google的Gemini Omni Flash视频生成每秒仅0.10美元,DeepSeek-V4-Pro将百万token输入价格压至0.035美元水平,而阶跃开源的推测解码技术JetSpec更可将大模型推理速度提升近10倍。

然而,需求端的爆发完全吞噬了效率红利。2024年全球企业生成式AI总支出约115亿美元,2025年飙升至370亿美元,年增幅达320%。AT&T目前日处理270亿token,而18个月前仅为8亿。一家美国大型医保公司的月token消耗从300万激增至1.5亿以上。应用扩散、单应用深度增加以及模型复杂度升级三重因素叠加,使得token消耗量每两个月翻一倍。

这种需求爆炸直接传导至硬件层。DRAMNAND Flash现货价格自2025年三季度起累计涨幅均超300%,DDR5颗粒单月涨幅一度突破90%。进入2026年,一季度DRAM合约价涨幅从预期的55%-60%被上修至90%-95%,二季度预测再涨58%-63%。三星存储在2025年四季度录得单季营业利润历史新高,突破20万亿韩元。高盛5月报告预测,2026年至2031年全球AI基础设施累计资本支出约7.6万亿美元,单年支出将从7650亿美元攀升至1.6万亿。

这一现象的本质,早在1865年就被经济学家威廉·斯坦利·杰文斯阐明。他观察到瓦特改良蒸汽机后,单位煤耗下降反而推高了英国煤炭总消费,因为效率提升使蒸汽动力在更多行业变得经济可行。如今,当token成本降至千分之一,企业用掉的token数增长了数万倍,原先不可行的实时推理、个性化生成等场景全部转化为刚需。

AI云公司Nebius的经历极具代表性。今年1月DeepSeek发布R1引发算力需求坍缩恐慌时,Nebius联合创始人Roman Chernin回忆,那反而是“销售最好的一周”,因为客户看到成本骤降后,第一反应是终于可以大规模部署推理了。这揭示了一个结构性推力:模型降价催生毛利率正反馈——软件优化持续压低推理成本,定价调整滞后,毛利率从10%攀升至90%的速度远超传统行业,利润再投入采购,形成自我强化的循环。

硬件端的不可替代性进一步放大了这一趋势。模型本身可替代——从GPT到Claude到开源模型,封锁与替代此起彼伏。但GPUDRAM、晶圆厂建设周期以年为单位,光刻机产能存在物理上限,这些不受软件优化影响。AI模型降价的终点,并非去算力化,而是算力定价权的再集中。无论用户使用谁的模型,token最终都运行在某人的芯片上,模型厂商的价格战,持续转化为数据中心、晶圆厂和存储产线的收入。