AI初创公司Decart本周三正式发布其新一代交互式世界模型Oasis 3,该模型能够实时生成照片级逼真的驾驶环境,并已通过API向开发者开放。TechCrunch独家获悉了这一消息。

Oasis 3的核心能力在于其无限生成特性。与仅提供有限演示或研究预览的竞品不同,Decart允许开发者根据文本提示,持续生成包含前向和双侧向的多摄像头驾驶场景。这种能力对于需要测试海量边缘案例的自动驾驶公司来说,具有直接的实用价值。公司联合创始人兼CEO Dean Leitersdorf表示,这是首个真正可供开发者在其上进行编程构建的可用世界模型,他预计将围绕该模型涌现出一个完整的开发者社区。

Decart此前已凭借其实时视频模型Lucy积累了超过10万名开发者,这些开发者主要在电商和直播领域构建产品。Oasis 3正是基于这一基础模型,标志着公司向物理AI领域的进军。API定价为每秒0.02美元,企业定价则根据具体用例而定。

此次发布距离Decart完成3亿美元融资仅数周。Leitersdorf称,融资源于电商、直播和物理AI领域对其模型需求的激增。该轮融资使公司估值达到近40亿美元,并引入了丰田、Adobe和eBay等战略投资者,现有投资者英伟达也参与了本轮。Leitersdorf指出,这些投资方本身都是潜在客户。

Oasis 3在照片级真实感和运行效率上的优势,源自Decart的另一项核心技术——DOS(Decart优化堆栈)。这套软件能让模型在英伟达、亚马逊和谷歌的硬件上高效运行,Leitersdorf声称,通过垂直整合优化至硬件层,其运行成本比行业其他公司低一个数量级以上。公司成立至今的总消耗资金“远低于”1亿美元。

然而,TechCrunch在实测中也发现了Oasis 3的明显局限。尽管模型能根据提示生成出色的初始场景,例如一个清晨的纽约街道,但随着驾驶进行,环境的主题一致性会迅速退化,逐渐变成任何西方城市的通用街景。当尝试返回初始路口时,该场景已完全消失,被全新环境取代。整体体验更像一场支离破碎的意识流梦境,而非连贯的模拟。

此外,控制响应不够灵敏,车辆时常失去控制,且模型未能正确模拟物理碰撞——车辆会直接穿过其他汽车。Leitersdorf将此归因于“关于良好驾驶的数据远多于事故数据”,并称之为团队正在攻克的主要研究难题。

这些物理一致性难题与Oasis 3的自回归架构密切相关。模型逐帧生成画面,并回顾之前生成的内容来决定下一步,这导致上下文窗口迅速被填满。Leitersdorf透露,团队正研究如何实现更长的上下文记忆,以存储数百万个token并压缩信息,从而维持更长时间的场景连贯性。

在世界模型赛道上,Decart并非孤军奋战。谷歌去年在研究预览中发布了Genie 3,李飞飞旗下的World Labs推出了面向商业用例的Marble,Luma和Runway等视频生成初创公司也在将物理感知视频模型转化为世界模型。Oasis 3的开放API策略,能否像OpenAI当年以语言模型构建开发者生态那样,在世界模型领域开辟新局,仍有待市场验证。