4月11日,国内AI行业迎来标志性一幕——腾讯和阿里巴巴选择在同一天发布各自的世界模型新品,将行业竞争焦点从语言对话全面推向空间智能这一新赛道。与此同时,字节跳动旗下火山引擎正式上线Seedance 2.0系列API,将视频生成能力向企业和个人全面开放。一周之内,三大巨头密集出手,AI技术的落地战场正在发生深刻转移。
腾讯混元3D世界模型2.0:直接生成可编辑的3D资产
腾讯正式发布并开源混元3D世界模型2.0(HY-World2.0),这是一款多模态世界模型,能够同时理解文字、图片、视频等多种类型的输入数据,自动完成3D世界的生成、重建和模拟。与此前主流世界模型仅能输出视频文件不同,混元3D世界模型2.0的核心突破在于实用性:它可以直接生成可二次编辑的3D资产文件,并无缝导入Unity、UE等主流游戏引擎,用于快速生成游戏地图和关卡原型。
从1.0升级到2.0,腾讯在画面精细度和真实感上实现了大幅提升。更重要的是,用户现在可以自定义风格,按需生成真实风、漫画风或游戏风等不同视觉风格的3D空间。腾讯还支持Mesh、3DGS及点云等多格式3D资产导出,适配不同的使用场景需求。
业内分析认为,腾讯选择在同一天与阿里正面交锋,意在争夺世界模型这一新兴赛道的定义权。相比纯视频生成方案,腾讯的路线更侧重于工业级3D资产生成,直接切入游戏开发和具身仿真两大高价值场景。
阿里HappyOyster:开放世界模型的创作革命
同一天,阿里巴巴ATH创新事业部发布了名为HappyOyster(快乐生蚝)的开放式世界模型。与腾讯的技术路线不同,HappyOyster基于原生多模态架构,支持多模态理解与音视频联合生成,用户可以实时构建可互动、可演绎、可探索的AI数字世界。
HappyOyster的目标用户群体主要是影视制作和游戏开发者。传统虚拟世界开发需要投入大量美术资源、程序员编码及漫长的迭代周期,而HappyOyster通过自动化生成逼真场景,将构建效率大幅提升。开发者只需描述期望的场景特征,模型即可实时生成动态三维环境。
与此同时,阿里旗下高德地图推出的具身模型ABot-PhysWorld在AgibotWorldChallenge与WorldArena两大国际权威评测中同时登顶,标志着具身智能的核心能力取得实质性突破。传统AI局限于平面信息处理,而具身模型通过感知复杂三维空间结构,使AI系统首次具备在物理世界中执行交互任务的潜力——这被视为AI从数字世界跨越到物理世界的关键一步。
字节Seedance 2.0:视频生成API全面开放
字节跳动旗下火山引擎也在同一周内正式上线Seedance 2.0系列API,面向企业和个人开发者全面开放视频生成能力。Seedance 2.0在前代基础上大幅提升了生成质量与速度,支持智能分镜和音视频同步,可用于广告制作、内容创作、虚拟场景搭建等多种应用场景。
业内人士指出,腾讯、阿里、字节三家的布局路径存在明显差异:腾讯押注3D资产生成(工业级),阿里侧重开放世界构建(创作级),字节则专注视频生成(内容级)。三条路线竞争激烈,但从长远看,终将走向融合——一个能够同时生成3D环境、视频和交互内容的综合世界模型,或将成为下一阶段竞争的制高点。
信息来源:企鹅号 AI大模型周报 2026-04-18
© 版权声明
文章版权归作者所有,未经允许请勿转载。
