视频轨迹终于可控了!MotionCtrl: 统一而灵活的视频生成运动控制器

AI前沿7个月前发布 wanglu852
5,578 0 0
广告也精彩

视频轨迹终于可控了!MotionCtrl: 统一而灵活的视频生成运动控制器

MotionCtrl是一个统一而灵活的视频生成运动控制器,由ARC Lab、腾讯PCG、香港大学、腾讯人工智能实验室、清华大学、上海人工智能实验室和广东工业大学的研究人员提出。它旨在有效地独立管理摄像机和物体的运动,用于视频生成。

视频轨迹终于可控了!MotionCtrl: 统一而灵活的视频生成运动控制器

视频轨迹终于可控了!MotionCtrl: 统一而灵活的视频生成运动控制器视频轨迹终于可控了!MotionCtrl: 统一而灵活的视频生成运动控制器​​

摘要

视频中的运动主要由摄像机运动和物体运动组成,这两者都会导致物体的运动。精确控制摄像机和物体的运动对于视频生成至关重要。现有的方法要么主要关注一种运动类型,要么没有明确区分这两者,限制了它们的控制能力和多样性。因此,MotionCtrl被提出作为一种统一而灵活的视频生成运动控制器,旨在有效且独立地控制摄像机和物体的运动。MotionCtrl的架构和训练策略经过精心设计,考虑了摄像机运动、物体运动和训练数据的固有特性。与之前的方法相比,MotionCtrl具有以下三个主要优点:

  1. 可以有效且独立地控制摄像机运动和物体运动,实现更精细的运动控制,促进两种运动的灵活多样组合。
  2. 其运动条件是由摄像机姿态和轨迹决定,这些姿态和轨迹与生成视频中的对象的外观或形状无关。
  3. 是一个相对通用的模型,可以适应广泛的摄像机姿态和训练后的轨迹。

方法

MotionCtrl通过摄像机运动控制模块(CMCM)扩展了LVDM的降噪U-Net结构,并添加了物体运动控制模块(OMCM)。CMCM将相机姿态序列RT与LVDM的时间自注意模块结合,通过将RT附加到输入中并应用定制和轻量级全连接层,提取相机姿态特征供后续处理。OMCM利用卷积层和下采样从轨迹中提取多尺度特征,这些特征在空间上与LVDM的卷积层进行注册,用于指导物体运动。

结果

MotionCtrl可以引导视频生成模型创建具有复杂摄像机运动的视频,给定一系列相机姿势。它可以引导视频生成模型生成具有特定物体运动的视频,给定物体轨迹。这些结果是生成式的,只需要一个统一的训练模型。已进行了广泛的定性和定量实验,证明MotionCtrl优于现有方法。

项目地址:MotionCtrl 键 (wzhouxiff.github.io)

© 版权声明
chatgpt4.0

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...
error: Content is protected !!