Meta抢先发布Movie Gen模型,突破AI视频生成新高峰,超高清长视频与高保真音效集成

AI前沿1个月前发布 yizz
3,115 0 0
广告也精彩

Meta发布Movie Gen模型的最新进展

Meta发布了什么新的AI模型?

Meta最新发布了自己的Movie Gen模型,这个模型抢在OpenAI之前推出,展示了Meta在AI视频生成领域的领先地位。Movie Gen模型不仅可以生成高清长视频,还能生成配套的背景音乐和音效。

Movie Gen有哪些亮点功能?

支持高清长视频生成

Movie Gen支持生成不同宽高比的高清长视频,最高可达1080p、持续16秒,每秒16帧

自动生成配套音效

与传统视频生成工具不同,Movie Gen不仅能生成视频,还能生成与视频同步的高保真音频,例如为滑板的轮子转动和落地提供逼真音效

视频编辑和个性化生成

Movie Gen还能根据用户上传的图像生成个性化视频,能够替换视频中的物体,实现如“把灯笼变成飞向空中的泡泡”的复杂效果。

核心技术和模型架构

使用Transformer作为骨干网络

Movie Gen的核心架构使用了Transformer模型,特别是基于Llama3架构,这是相较于传统扩散模型的一大进步。他们完全扔掉了扩散模型的扩散损失函数

引入流匹配训练目标

流匹配(Flow Matching)作为训练目标,使得视频生成的效果在精度和细节表现上优于传统扩散模型的方法。扩散模型通过逐步加入和去除噪声来逼近目标数据分布,而流匹配直接学习如何在每个时间步中演化样本,生成结果更高效且具有更好的连续性。

分模块设计

Movie Gen由两个模块组成:
Movie Gen Video:30B参数的Transformer模型,从单个文本提示生成视频。
Movie Gen Audio:13B参数的Transformer模型,生成与视频同步的音频。

技术创新

  • 因子化的可学习位置编码:对视频的高度、宽度、时间维度分别编码,适配不同宽高比的视频。
  • 线性-二次时间步长调度:用50步实现1000步采样的效果,提高推理速度。
  • 时间平铺推理方法:解决生成高分辨率长视频时的内存限制问题,通过分割和重叠处理保持视频的平滑性。

开源及未来展望

Meta还开源了多个基准测试数据集,如Movie Gen Video Bench、Movie Gen Edit Bench、Movie Gen Audio Bench,为后续研究者提供了权威的评测工具,有利于加速领域的进步。

竞品动态

OpenAI的Sora

Meta发布Movie Gen之前,OpenAI Sora主创之一跳槽至谷歌继续视频生成方面的工作,这引发了外界的诸多猜测。很多人认为,Meta的创新步伐可能迫使OpenAI放出Sora来回应。

结论与展望

我认为

鲁迅曾言:创新的真正意义在于它能为未来开辟道路。Meta的Movie Gen模型展示了AI在具体应用领域中的潜力,通过高效的Transformer架构和流匹配训练目标,该模型具备了更高的生成质量和更多功能集成。如果未来这些技术能够普及,将大大改变视频制作和媒体内容的生成方式。AI视频生成正驶向数据生产力革命的新高峰,不久的将来,内容制作的门槛将被进一步拉低,人人都可以成为创作者。, Movie Gen, , , , , , , ,

© 版权声明
chatgpt4.0

相关文章

error: Content is protected !!