6月17日,阿里巴巴正式发布了开放式世界模型产品HappyOyster 1.0(快乐生蚝1.0),为用户提供了一种全新的AI数字世界构建与交互方式。与传统的文生视频模型不同,HappyOyster 1.0并非简单地将文本转化为单向播放的视频,而是深度学习物理世界中从动作到反馈的因果转移规律,能够实时推演人物与环境的动态演变,并保持长程一致性。这意味着用户不再是被动的观看者,而是可以主动探索、实时导演甚至重塑数字世界的参与者。
HappyOyster 1.0的核心能力分为两大模式:世界探索(Adventure)和实时导演(Directing)。在世界探索模式下,用户只需输入一句话或上传一张图片,系统就能生成一个可深度交互的数字环境。该版本在交互功能上进行了显著升级,新增了前冲、下蹲、跳跃、攻击等操控按键,甚至支持载具驾驶与武器战斗等复杂物理交互,丰富了人物的运动轨迹。实时导演模式则赋予了用户“上帝视角”,通过新增的暂停、回溯与分支叙事能力,用户可以在体验过程中的任意节点暂停,并跳回剧情中的关键节点,输入新的提示词来改变故事走向。这种设计让同一个初始设定能够以极低的成本衍生出无限可能,将传统的线性叙事转化为用户掌握主动权的互动体验。
从技术路径来看,HappyOyster 1.0的突破源于其学习目标的根本差异。文生视频模型追求的是文本到视频的单向映射,而世界模型的学习目标是从“当前状态与动作”到“下一状态与动作”的转移规律。该模型从海量自然视频中学习现实世界的人物、事物和环境演变,自主推演因果链,从而能够泛化到未见过的场景,并根据用户指令推理出新的因果关系,维持数字世界的长程稳定以及音视频的长时协同。目前,世界探索模式支持长达1分钟的连续实时位移与镜头控制,实时导演模式则可生成3分钟以上的480p或720p实时画面,且生成内容均支持一键分享。
在应用前景上,HappyOyster 1.0瞄准了多个行业。在交互式游戏领域,开发者无需耗费数周时间编写代码和测试,通过上传图片和输入提示词,就能快速生成符合物理规律的开放世界原型、角色交互和战斗场景。在互动短剧、虚拟陪伴或直播场景中,用户可以通过自然语言指令构建人物和剧情,并在任意节点改写画面、角色或剧情走向。文旅行业同样能从中受益,该产品可以为游客提供沉浸式的探索体验,生成具备稳定一致性的数字人IP,并允许游客自主决定游览路线,甚至步入深海、月球等奇幻场景。
值得注意的是,世界模型作为一个新兴赛道,目前仍处于发展早期,业界缺乏可量化的测评标准。为此,HappyOyster团队已联合南京大学,着手打造首个覆盖过程交互、跨模态对齐、长程一致性与物理仿真验证的行业基准,试图填补这一空白。据悉,HappyOyster 1.0近期还将全面开放API接口,以吸引更多行业伙伴共建生态。官网现已开放用户注册体验,每日登录可免费领取积分,用于探索这一实时交互的数字世界。
对于AI产业投资者和从业者而言,HappyOyster 1.0的发布不仅展示了阿里在多模态模型领域的前沿探索,更揭示了世界模型从理论走向产品化的加速趋势。它可能重新定义互动内容的生产方式,降低游戏开发、虚拟体验等场景的创作门槛,并对算力基础设施提出新的需求。随着API的开放和行业基准的建立,这一赛道或将吸引更多资本与人才涌入,推动应用层创新进入实时交互的新阶段。