OpenRouter发布2026年开源模型“F4”：开源与闭源差距仅剩3到6个月

OpenRouter梳理截至2026年6月最值得关注的4个开源模型，称开源与闭源差距稳定在3到6个月。

OpenRouter在2026年6月发布了一份对开发者极具参考价值的梳理，指出当前真正具有决定性意义的开源大模型仅有四个，并强调开源阵营在过去18个月里与闭源模型的差距稳定保持在3到6个月之间。这一判断意味着，尽管闭源厂商仍在迭代前沿能力，但开源社区已形成持续追赶的态势，闭源巨头并未如市场一度担忧的那样建立起不可逾越的护城河。

随着企业AI用量激增，控制推理成本成为各团队的核心诉求。将业务从闭源模型迁移至开源模型，能直接省下一笔可观的支出。闭源模型的前沿能力固然会继续进化，但只要用户对智力水平的需求相对固定，使用成本就会持续下行。在这一背景下，开源模型迎来了真正的高光时刻。

OpenRouter选出的四个模型各有杀手锏。DeepSeek V4 Flash是首个被开发团队直接嵌入智能体工作流的开源模型，被大量开发者视为Anthropic或OpenAI同级闭源模型的平替。其大杯版本V4 Pro在SWE-bench Verified测试中取得80.6% 的成绩，刷新开源模型纪录，看齐GPT-5.5级别的智能体表现。但真正引爆市场的是Flash版本，它采用MIT协议，拥有2840亿总参数和130亿激活参数的MoE架构，支持百万token上下文，SWE-bench Verified得分79.0%，与Pro版差距仅约1.6分。价格是其最大利器：在DeepSeek官方API上，输入和输出价格分别为每百万token 0.14美元和0.28美元，缓存折扣后输入可低至0.029美元，输出成本约为GPT-5.5的150分之一。官方在5月已将这一折扣价固定为永久价格，直接拉低了该智力级别模型的市场定价。

GLM 5.2于6月中旬发布，初期口碑迅速攀升。它在Artificial Analysis的4.1版本智力指数榜单上以51分位居开源模型第一，距离闭源的Claude Fable 5仅差5分。在真实智能体基准测试中，其表现基本与GPT-5.5 xhigh版本持平。该模型的核心优势在于任务规划和超长上下文代码编写，均价为每百万token输入0.447美元、输出3.31美元。不过，它输出时倾向于深入思考，消耗大量token，实际运行成本不低。此外，美国近期出台的出口管制新规迫使Anthropic大规模禁用Fable 5和Mythos 5的海外访问权限，这使得采用MIT协议且代码能力接近闭源头部的GLM 5.2，成为许多追求业务稳定性的企业的替代选择。

MiniMax M3是四者中唯一原生支持文本、图表和视频理解的多模态模型。在智力指数榜单上，它与DeepSeek V4 Pro并列44分，但在真实智能体测试中表现与Claude Sonnet 4.6持平。其价格诱人，每百万token输入0.098美元、输出1.21美元，但上下文超过51万token后价格上浮。与GLM类似，M3推理过程冗长，总成本未必低廉。它未采用MIT协议，而是使用自家社区协议，商业使用需署名，大型商业产品还需书面授权。在需要处理屏幕截图、UI界面、架构图或视频的智能体场景中，M3是谷歌Gemini Flash在多模态理解领域的强力竞争对手。

英伟达Nemotron 3 Ultra是美国本土最具竞争力的开源模型，专为企业部署打造。它在智力指数榜单上以48分位居第二，仅次于GLM 5.2。该模型采用5500亿总参数和550亿激活参数的Mamba-2与Transformer混合MoE架构，使用NVFP4精度，支持百万上下文和多token预测技术，并采用OpenMDW协议。英伟达不仅开源了模型权重，还一并公开了训练数据、配方、评估工具和强化学习基础设施。其战略意图清晰：开源模型用得越多，市场对英伟达芯片和软件生态的需求就越旺盛。Nemotron本质上是一块吸引企业进入英伟达AI全家桶的招牌。

这四个模型分别代表了开源阵营在极致性价比、顶级代码与规划质量、平价多模态能力以及企业级可控部署四个方向上的最新高度。开源与闭源的差距虽然存在，但这层窗户纸已非常薄。对开发者和企业而言，关键在于根据自身业务对成本、质量、模态和部署控制权的实际需求，对号入座进行测试和选型。

OpenRouter发布2026年开源模型“F4”：开源与闭源差距仅剩3到6个月

延伸阅读

相关深度报道

相关每日新闻