The Information 最新披露,DeepSeek 创始人 梁文锋 决定开启融资的直接导火索,是目睹了竞争对手 Anthropic 旗下模型 Claude Mythos 的强悍表现。消息指出,梁文锋看到 Claude Mythos 通过投入海量算力与数据训练出的超强能力后,意识到 DeepSeek 如果不迅速储备“弹药”,将难以在下一阶段的竞争中立足。

时间线的高度吻合为这一说法提供了佐证。Anthropic 于今年 4 月 发布了 Claude Mythos 的第一个预览版,而关于 DeepSeek 寻求融资的传闻,恰好在 4 月中旬 首次在市场间流传。

融资完成后,DeepSeek 迅速转入扩张轨道。本周四,这家一向低调的公司罕见地发表公开声明,宣布所有部门招聘规模 “至少翻倍” ,岗位覆盖 AI 系统开发、基础设施、产品开发以及深度学习研究 等核心领域。目前 DeepSeek 全公司约有 300 人,这意味着团队规模将迎来急剧膨胀。

扩张的紧迫性在关键部门已显露无遗。负责将模型转化为自主 AI 智能体的核心团队 Harness,已进入每日高频面试的节奏。该团队负责人 崔天一 于今年 3 月 从量化交易巨头 Jane Street 跳槽加入,并于本月早些时候在社交平台 X 上透露了这一招聘状态。

在人才扩张之外,DeepSeek 正将大量资源倾注于一项艰巨的基础工程:适配国产芯片。梁文锋坚信 华为 的芯片能力在几年内就能追上 英伟达 的水平,DeepSeek 理应率先完成适配。据悉,华为直到去年才得知 DeepSeek 已在私下试验其芯片,随后双方开启了直接合作。

然而,适配的代价不容小觑。DeepSeek 现有的训练与部署系统完全围绕英伟达 CUDA 软件生态搭建,工程师们必须重写底层软件,才能使模型在华为芯片上高效运行。这一技术换轨直接导致 DeepSeek 长达 15 个月 没有发布任何新一代模型。在其他顶级实验室每两三个月就推出一款新模型的节奏下,这段空窗期显得格外漫长,也使 DeepSeek 错过了去年下半年由 Anthropic Claude Code 掀起的编程工具热潮。

面对投资人的疑虑,梁文锋在路演中给出了自己的判断。他认为,编程工具和 AI 聊天机器人都只是 AI 进化过程中的临时产物,若重注押在这些短期产品上,反而会偏离通往 AGI 的终极目标。这种对长期路线的坚持,也体现在他个人的资金承诺上。在此次总额 74 亿美元 的融资中,梁文锋自己写下了最大的一张支票,出资 200 亿人民币(约 30 亿美元),占总额的五分之二。

融资完成后,DeepSeek 设立了员工持股计划,并按实际估值分配股份。梁文锋向身边人强调,其战略不会改变:继续开源、保持低价、专注 AGI。他将 AGI 定义为机器在理解、推理、学习、规划和适应等广泛任务上达到人类水平。他还表示,“AI 不应该被少数人控制”。DeepSeek 是目前唯一一家将所有模型底层代码完全公开的主要 AI 实验室。

在美国开发者群体中,DeepSeek 的存在感正在急速膨胀。今年 4 月 发布的旗舰模型 V4,于 5 月Vercel 的 AI Gateway 平台上,其 token 用量份额从不到 1% 飙升至 17%,一个月内便成为该平台仅次于 Anthropic 和 Google 的第三大模型。其轻量版 V4 Flash 的价格,比 Anthropic 的模型便宜 20 到 50 倍,这种增长势头在 6 月仍在延续。