美国AI独角兽Odyssey近日完成了一轮规模达3.1亿美元的新融资,投后估值攀升至14.5亿美元。这家成立于2023年的初创公司,专注于训练基于物理规则与物体交互逻辑的世界模型,试图突破当前纯语言模型的局限。本轮融资的投资方阵容相当豪华,涵盖了产业链上多个关键环节:亚马逊、英伟达、AMD旗下的风投部门,以及谷歌DeepMind首席科学家Jeff Dean、硅谷知名投资人Elad Gil等。甚至连美国中央情报局出资成立的风险投资机构In-Q-Tel也出现在名单中,反映出世界模型在国防等敏感领域的潜在应用前景。
除了资金注入,Odyssey还与亚马逊云服务AWS达成了深度绑定。AWS将成为其首选云服务商,而Odyssey则承诺针对AWS自研的Trainium芯片优化自身模型,并部署亚马逊最新的芯片产品。这一安排直指世界模型训练与持续推理所面临的巨大算力成本。对于一家初创公司而言,独自承担硬件与云服务开销压力沉重,通过与芯片厂商和云平台建立合作,Odyssey得以将部分成本分摊到产业伙伴身上,从而更专注于模型研发。
Odyssey目前已推出多款面向不同场景的世界模型。其中,Odyssey-2 Max是其迄今为止最强大的通用世界模型,主打单人长时序交互式视频仿真,能够根据文本提示词生成细节丰富、可交互的视频内容,对物体在真实世界中的物理运动做出高精度预判。Starchild-1则是全球首个实时多模态世界模型,能以自回归方式同步生成音画内容,并持续响应用户的流式输入。Agora-1更像一套通过学习训练而成的游戏引擎,最多支持四名玩家在同一生成式虚拟世界中实时互动,根据每位玩家的动作推演交互行为,并统一维护全局共享的世界状态。
世界模型在像素细节和物理模拟层面仍存在瑕疵,难以始终严格按照输入动作完成推演。为此,Odyssey研发了一套名为PROWL的算法,这是一套基于强化学习的对抗性测试框架。PROWL通过让智能体主动挖掘世界模型中的系统性缺陷,将发现的缺陷样本用于训练模型,优化后的模型再反哺智能体提升寻错效率,形成闭环反馈,持续迭代模型精度。
从产业应用角度看,影视与游戏行业长期面临传统CG三维场景和多人交互关卡制作周期漫长、人力成本高昂的难题。Odyssey的世界模型可以帮助客户一键生成可交互虚拟场景,在保证质量的同时缩短内容生产周期、降低成本。随着模型规模扩大和模拟质量提升,其落地场景有望覆盖科学研究、机器人、国防及医疗等更多领域。例如,在工业实操培训中,可以利用这类模型搭建交互式虚拟实训场景;在机器人领域,世界模型通过学习人类操控行为,使机器人在实际操作前对复杂任务进行模拟预演,涵盖抓取、导航和操控等动作。
Odyssey的两位联合创始人均来自自动驾驶行业。Oliver Cameron曾联合创办自动驾驶企业Voyage,后出任通用汽车旗下Cruise的产品副总裁;Jeff Hawke则是自动驾驶公司Wayve的前技术副总裁。Cameron曾展示过一项演示案例:仅依靠像素、动作与音效作为输入提示,Odyssey的模型就能复刻出1997年任天堂游戏《GoldenEye》的多人联机版,且无需针对该游戏专属物理规则做专项训练。他透露,Odyssey的开发工具运行在英伟达H200和B200芯片之上,每人每小时的使用成本约为2至4美元,不过这一费用并不包含模型训练成本。
Odyssey现有55名员工,分布于伦敦、苏黎世与帕洛阿尔托三地,团队成员多数来自DeepMind、Meta、苹果、Waymo以及特斯拉等大型AI实验室与自动驾驶企业。
本轮融资的豪华阵容,一定程度上反映出当下AI资本正集体看好物理仿真世界模型这条技术路线。除了补充研发与商业化落地资金外,AWS等厂商提供的底层算力基础设施,也将帮助Odyssey缓解承担高额模型训练成本的压力。随着模型训练和推理成本持续攀升,模型公司与云计算、芯片厂商之间的协同正在变得更加紧密。对于世界模型赛道而言,未来的竞争或许不仅取决于模型能力本身,也将取决于产业生态的构建速度。