阿里再放大招!“快乐生蚝”一键生成可走入的3D世界,世界模型赛道再添变数

斜阳云飘
04-19 15:15 来自浙江省

当世界模型不再只是"生成视频",而是"生成可以走进去的世界",AI的下一代交互范式正在悄然成型。

4月16日,阿里ATH创新事业部发布了其首款开放式世界模型HappyOyster(中文名"快乐生蚝")。这是继"快乐马"之后,阿里在同一团队推出的又一款世界模型产品。但与快乐马不同的是,快乐生蚝的核心突破在于:它生成的不是视频,而是一个用户可以真正进入、实时交互的3D空间。

阿里,用一款产品,回答了一个长期困扰世界模型赛道的问题:生成式AI和真实世界之间,到底缺什么?

理解快乐生蚝的核心价值,需要先理解什么是"世界模型"。

世界模型的概念来自认知科学,指的是生物体对外部环境的内部表征——它让生物体能够对未来的情景进行模拟和预测,从而在行动前"在心里预演"可能的走向。将这个概念迁移到AI领域,意味着一个AI系统不仅要能够理解和生成内容,还要能够对物理世界的运行规律进行建模,并在此基础上进行真实的空间推理和规划。

在快乐生蚝出现之前,主流的世界模型产品主要聚焦于视频生成:用户输入一段文字描述,AI生成一段视频。这本质上还是在"创作内容",用户始终是观众,而不是参与者。

快乐生蚝的不同之处在于:它生成的是一个具备物理一致性的可交互3D空间。用户不仅能看,还能用WASD键移动、鼠标控制视角,像第一人称游戏一样在生成的空间中自由探索。

快乐生蚝的产品能力围绕四个核心功能展开。

Wander(漫游)是最基础的使用模式。用户输入一句话或上传一张图片,系统会生成一个具备物理一致性的3D空间。以梵高《星夜》为输入,系统会生成一个可以走入的旋转星空场景;以一张废墟照片为输入,系统会生成一个可自由探索的废墟空间。目前漫游模式的生成时长约1分钟,输出分辨率为480p。

Direct(导演)是一个更进阶的交互模式。在生成过程中,用户可以实时插入指令——可以是文本、语音或图片——来改变镜头、角色动作或剧情走向。比如在一个卡通鳄鱼飞行员的场景中,用户可以随时说"Show the whole helicopter",系统会实时拉远镜头,展示直升机的全貌。导演模式的生成时长通常在3分钟以上,分辨率可选480p或720p。

Create(创造)意味着用户可以生成一个完整的"世界",而非仅生成视频内容。阿里ATH团队的核心技术目标是:让用户从"观看者"变成"参与者"——用户生成的空间,用户自己可以进入,可以修改。

Share(分享)则是产品化的关键一步。用户生成的世界可以保存、分享,并允许其他用户在此基础上进行二次创作。这套分享机制的本质,是构建一个创作者生态,让快乐生蚝不只是一个工具,而是一个有内容产出的平台。

快乐生蚝发布后,业界很快将其与另外两个世界模型玩家进行了对比:谷歌和李飞飞团队。

谷歌DeepMind的Genie系列是目前实时交互式世界建模领域的标杆,Genie 3于2025年8月发布,在动态场景生成方面有显著优势。但业界指出,Genie在多模态输入的统一表达和音视频联合生成上仍有局限,快乐生蚝在这两个方向上进行了针对性突破。

李飞飞团队的World Labs走的是3D空间结构化路线,专注于AI对物理三维空间的理解和建模。其技术路线更偏向"认知"而非"生成",在空间推理能力上有独特优势,但在生成内容的丰富度和实时性上,目前不如快乐生蚝。

阿里快乐生蚝的差异化在于"原生多模态架构"——它从一开始就将文本、图像、音频、视频等多种模态作为统一输入进行处理,而非在生成后再进行多模态融合。此外,中文叙事支持是快乐生蚝相对于海外竞品的本土化优势。

尽管能力令人眼前一亮,但快乐生蚝目前仍处于Beta内测阶段,多项能力尚待完善。

漫游模式和导演模式目前尚未融合——Wander中不能实时改剧情,Direct中不能自由移动。用户需要在两种模式中选择其一,而非同时体验两种交互方式。此外,实时控制的流畅度仍有提升空间,在生成复杂场景时,系统响应会有一定延迟。

商业化路径目前也不明确。阿里尚未公布定价策略或API开放计划,产品仍以邀请制内测为主。

阿里ATH创新事业部由CEO吴泳铭直接领导,成立于约一个月前。快乐生蚝是该部门成立以来发布的第二款重磅产品,第一款是此前的快乐马。

这个团队的技术野心不小:目标是在五年内实现云与AI商业化年收入达1000亿美元。在当前的AI商业化竞赛中,这是一个极具挑战性的目标,但也反映出阿里在AI领域持续加码的战略意图。

快乐生蚝的出现,实际上在回答一个更大的问题:AI的下一代交互入口是什么?

如果把大语言模型定义为"对话入口",把AI视频生成定义为"内容创作入口",那么世界模型可能正在成为"空间交互入口"——用户通过生成和探索虚拟世界,与AI系统进行更深层次的互动。

这个方向的价值,在具身智能和自动驾驶领域有着直接的应用前景。一个能够理解物理世界运行规律、能够预测未来情境的AI系统,在控制机器人执行复杂任务或辅助自动驾驶决策时,都具有不可替代的价值。这或许也是阿里ATH团队将快乐生蚝定位为"具身智能基础能力"的原因之一。

从视频生成到空间建模,从观看到参与,AI理解世界的方式正在发生根本性的转变。快乐生蚝是这条路上的一个新坐标——它不完美,但指出了一个值得期待的方向。

热点新闻