OpenRouter在2026年6月发布了一份对开发者极具参考价值的梳理,指出当前真正具有决定性意义的开源大模型仅有四个,并强调开源阵营在过去18个月里与闭源模型的差距稳定保持在3到6个月之间。这一判断意味着,尽管闭源厂商仍在迭代前沿能力,但开源社区已形成持续追赶的态势,闭源巨头并未如市场一度担忧的那样建立起不可逾越的护城河。
随着企业AI用量激增,控制推理成本成为各团队的核心诉求。将业务从闭源模型迁移至开源模型,能直接省下一笔可观的支出。闭源模型的前沿能力固然会继续进化,但只要用户对智力水平的需求相对固定,使用成本就会持续下行。在这一背景下,开源模型迎来了真正的高光时刻。
OpenRouter选出的四个模型各有杀手锏。DeepSeek V4 Flash是首个被开发团队直接嵌入智能体工作流的开源模型,被大量开发者视为Anthropic或OpenAI同级闭源模型的平替。其大杯版本V4 Pro在SWE-bench Verified测试中取得80.6% 的成绩,刷新开源模型纪录,看齐GPT-5.5级别的智能体表现。但真正引爆市场的是Flash版本,它采用MIT协议,拥有2840亿总参数和130亿激活参数的MoE架构,支持百万token上下文,SWE-bench Verified得分79.0%,与Pro版差距仅约1.6分。价格是其最大利器:在DeepSeek官方API上,输入和输出价格分别为每百万token 0.14美元和0.28美元,缓存折扣后输入可低至0.029美元,输出成本约为GPT-5.5的150分之一。官方在5月已将这一折扣价固定为永久价格,直接拉低了该智力级别模型的市场定价。
GLM 5.2于6月中旬发布,初期口碑迅速攀升。它在Artificial Analysis的4.1版本智力指数榜单上以51分位居开源模型第一,距离闭源的Claude Fable 5仅差5分。在真实智能体基准测试中,其表现基本与GPT-5.5 xhigh版本持平。该模型的核心优势在于任务规划和超长上下文代码编写,均价为每百万token输入0.447美元、输出3.31美元。不过,它输出时倾向于深入思考,消耗大量token,实际运行成本不低。此外,美国近期出台的出口管制新规迫使Anthropic大规模禁用Fable 5和Mythos 5的海外访问权限,这使得采用MIT协议且代码能力接近闭源头部的GLM 5.2,成为许多追求业务稳定性的企业的替代选择。
MiniMax M3是四者中唯一原生支持文本、图表和视频理解的多模态模型。在智力指数榜单上,它与DeepSeek V4 Pro并列44分,但在真实智能体测试中表现与Claude Sonnet 4.6持平。其价格诱人,每百万token输入0.098美元、输出1.21美元,但上下文超过51万token后价格上浮。与GLM类似,M3推理过程冗长,总成本未必低廉。它未采用MIT协议,而是使用自家社区协议,商业使用需署名,大型商业产品还需书面授权。在需要处理屏幕截图、UI界面、架构图或视频的智能体场景中,M3是谷歌Gemini Flash在多模态理解领域的强力竞争对手。
英伟达Nemotron 3 Ultra是美国本土最具竞争力的开源模型,专为企业部署打造。它在智力指数榜单上以48分位居第二,仅次于GLM 5.2。该模型采用5500亿总参数和550亿激活参数的Mamba-2与Transformer混合MoE架构,使用NVFP4精度,支持百万上下文和多token预测技术,并采用OpenMDW协议。英伟达不仅开源了模型权重,还一并公开了训练数据、配方、评估工具和强化学习基础设施。其战略意图清晰:开源模型用得越多,市场对英伟达芯片和软件生态的需求就越旺盛。Nemotron本质上是一块吸引企业进入英伟达AI全家桶的招牌。
这四个模型分别代表了开源阵营在极致性价比、顶级代码与规划质量、平价多模态能力以及企业级可控部署四个方向上的最新高度。开源与闭源的差距虽然存在,但这层窗户纸已非常薄。对开发者和企业而言,关键在于根据自身业务对成本、质量、模态和部署控制权的实际需求,对号入座进行测试和选型。