Anthropic 安全测试名单曝光：Kimi K2.7 跻身八强

Anthropic在Fable 5上线时公布8款模型安全测试名单，Kimi K2.7是唯一入选的中国模型。

Anthropic 在发布 Claude Fable 5 的同时，用一份内部安全测试名单回应了外界对模型潜在风险的争议。这份名单披露，在要求极为严苛的“能复现出相同演示”测试中，共有 八款模型 达标，其中包括 GPT-5.5、Anthropic 自家的 Opus 4.8，以及来自中国月之暗面的 Kimi K2.7。

八强席位中，Claude 系列占据五席，GPT 系列占据两席，Kimi K2.7 是唯一一款非美国公司开发的模型。Anthropic 的逻辑很直接：通过证明其他顶级模型同样能识别出相关漏洞，来表明 Fable 5 的安全表现并非孤例，从而淡化其风险争议。但客观上，这份名单将 Kimi K2.7 与 GPT-5.5、Fable 5 放在了同一能力段位上，相当于给中国大模型的底层实力做了一次“官方盖章”。

这份技术认证并非孤立事件。北美科技公司正在用实际部署“用脚投票”。Coinbase 首席执行官 Brian Armstrong 近期公开了公司内部的 AI 降本策略：通过内部 LLM 网关，将 Kimi K2.7 和 GLM 5.2 设为工程师的默认模型。理由很务实——91% 的员工从未触及使用上限，与其削减额度，不如直接切换到更具性价比的模型。配合按任务自动路由、将缓存命中率从 5% 提升至 60%，Coinbase 的 AI 账单直接削减了近一半。一家美国上市金融企业把中国开源模型设为生产环境默认选项，这在一年前几乎不可想象，标志着中国模型在海外的认知正从“低价替代”转向“可被严肃采用的技术供给”。

在 AI 编程工具赛道，Cursor 的经历同样说明问题。这家公司曾因 Claude Code 的冲击而承压，随后以 Kimi K2.5 为基座进行后训练，重新拉起了产品能力。其 Composer 模型的底层 model ID 直接指向 kimi-k2.5，连 马斯克 都在 X 上确认了这一事实。转折点出现在 6 月 16 日，SpaceX 宣布以约 600 亿美元 全股票收购 Cursor，消息公布当天 SpaceX 盘中股价一度飙升约 16%，总市值短暂超越亚马逊和微软。一家把 Kimi 当基座的应用公司，就此被定价到 600 亿美元。

Kimi 的合作伙伴 Fireworks 则讲述了另一个版本的故事。这家推理平台在大约七个月内，估值从 40 亿美元 一路攀升到 150 亿美元，客户名单包括 Cursor、Perplexity、Notion、Uber 等。在 OpenCode 的开源模型排名中，按 cost/session 计算，前三名分别是 GLM、Kimi、DeepSeek。从千亿美国巨头到 AI 编程独角兽，北美 AI 公司正在自己的生产基础设施里给中国开源模型留出默认位置。

外部认证与采用之外，Kimi 自身的商业模式曲线也值得关注。据披露，其年度经常性收入在过去几个月走出陡峭上升线：三个月 ARR 翻三倍，海外用户增长 400%。增长动力并非来自定制化项目或庞大的直销团队，而是模型能力迭代带来的开发者自发采用和 API 收入增长——这是一种典型的“产品主导增长”模式。目前 Kimi 员工总数仅约 300 人，API 收入约占总收入的 70%，客户覆盖据称已达 200 多个国家和地区，海外收入占比接近一半。

这套增长逻辑与早期的 Anthropic 高度相似。Anthropic 在 ARR 冲向 10 亿美元的过程中，同样没有急于组建大规模直销军团，而是押注开发者自助采用。据公开信息，Kimi 投前估值约 315 亿美元，仅相当于 Anthropic 最新估值的 3%，也低于智谱在港股的最新市场估值。当收入结构、增长曲线、增长逻辑都在向 Anthropic 靠拢，而估值仍差着一个数量级，这中间的差距本身就构成了市场关注的叙事空间。

放眼全球，能拿出万亿参数开源模型的厂商屈指可数。从 2023 年到 2026 年，大模型赛道经历了一轮又一轮的残酷出清。当潮水退去，同时具备持续投入、模型迭代、商业造血和生态影响力四大能力的中国玩家已所剩无几。Anthropic 那份八款模型的名单，或许已经给出了它对“谁是第二”的判断。

Anthropic 安全测试名单曝光：Kimi K2.7 跻身八强

延伸阅读

相关深度报道

相关每日新闻