Anthropic发布Claude Sonnet 5：性能逼近旗舰，定价仅四到六成

Anthropic推出中端模型Claude Sonnet 5，以旗舰Opus 4.8四到六成价格实现九成以上性能。

Anthropic在6月30日正式发布了Claude Sonnet 5，一款定位中端但能力大幅跃升的模型。在衡量代理能力的SWE-bench Pro测试中，Sonnet 5取得了63.2分，与旗舰模型Opus 4.8的69.2分仅差6分。而在研究生级推理测试GPQA-AAA v2上，Sonnet 5的表现甚至压过了Opus 4.8。

定价策略是本次发布最受市场关注的信号。优惠期内，Sonnet 5每百万输入token收费2美元，输出收费10美元；相比之下，Opus 4.8的对应价格分别为5美元和25美元。这意味着用户可以用旗舰模型约四到六成的成本，获得其九成以上的能力。

这条消息迅速在资本市场引发连锁反应。发布当天，美国半导体指数上涨近4%。这并非孤立事件，而是过去三年AI叙事中一个反复出现的悖论的最新注脚：模型推理效率的提升并未如预期般削减芯片需求，反而持续推高了算力与存储的总消耗。

从成本曲线看，AI模型的降价幅度堪称剧烈。自2022年GPT-4级别API调用成本约每千token 0.03美元起，到2025年，同等性能模型的价格已下降约280倍，若计入开源与效率提升的综合效应，业界公认的降幅达到1000倍。Anthropic此次定价只是这股浪潮的一部分。Google的Gemini Omni Flash视频生成每秒仅0.10美元，DeepSeek-V4-Pro将百万token输入价格压至0.035美元水平，而阶跃开源的推测解码技术JetSpec更可将大模型推理速度提升近10倍。

然而，需求端的爆发完全吞噬了效率红利。2024年全球企业生成式AI总支出约115亿美元，2025年飙升至370亿美元，年增幅达320%。AT&T目前日处理270亿token，而18个月前仅为8亿。一家美国大型医保公司的月token消耗从300万激增至1.5亿以上。应用扩散、单应用深度增加以及模型复杂度升级三重因素叠加，使得token消耗量每两个月翻一倍。

这种需求爆炸直接传导至硬件层。DRAM和NAND Flash现货价格自2025年三季度起累计涨幅均超300%，DDR5颗粒单月涨幅一度突破90%。进入2026年，一季度DRAM合约价涨幅从预期的55%-60%被上修至90%-95%，二季度预测再涨58%-63%。三星存储在2025年四季度录得单季营业利润历史新高，突破20万亿韩元。高盛5月报告预测，2026年至2031年全球AI基础设施累计资本支出约7.6万亿美元，单年支出将从7650亿美元攀升至1.6万亿。

这一现象的本质，早在1865年就被经济学家威廉·斯坦利·杰文斯阐明。他观察到瓦特改良蒸汽机后，单位煤耗下降反而推高了英国煤炭总消费，因为效率提升使蒸汽动力在更多行业变得经济可行。如今，当token成本降至千分之一，企业用掉的token数增长了数万倍，原先不可行的实时推理、个性化生成等场景全部转化为刚需。

AI云公司Nebius的经历极具代表性。今年1月DeepSeek发布R1引发算力需求坍缩恐慌时，Nebius联合创始人Roman Chernin回忆，那反而是“销售最好的一周”，因为客户看到成本骤降后，第一反应是终于可以大规模部署推理了。这揭示了一个结构性推力：模型降价催生毛利率正反馈——软件优化持续压低推理成本，定价调整滞后，毛利率从10%攀升至90%的速度远超传统行业，利润再投入采购，形成自我强化的循环。

硬件端的不可替代性进一步放大了这一趋势。模型本身可替代——从GPT到Claude到开源模型，封锁与替代此起彼伏。但GPU、DRAM、晶圆厂建设周期以年为单位，光刻机产能存在物理上限，这些不受软件优化影响。AI模型降价的终点，并非去算力化，而是算力定价权的再集中。无论用户使用谁的模型，token最终都运行在某人的芯片上，模型厂商的价格战，持续转化为数据中心、晶圆厂和存储产线的收入。

Anthropic发布Claude Sonnet 5：性能逼近旗舰，定价仅四到六成

延伸阅读

相关深度报道

相关每日新闻