视频轨迹终于可控了！MotionCtrl: 统一而灵活的视频生成运动控制器

AI前沿2年前 (2024)发布 wanglu852

11,658 0 0

视频轨迹终于可控了！MotionCtrl: 统一而灵活的视频生成运动控制器

MotionCtrl是一个统一而灵活的视频生成运动控制器，由ARC Lab、腾讯PCG、香港大学、腾讯人工智能实验室、清华大学、上海人工智能实验室和广东工业大学的研究人员提出。它旨在有效地独立管理摄像机和物体的运动，用于视频生成。

视频轨迹终于可控了！MotionCtrl: 统一而灵活的视频生成运动控制器

摘要

视频中的运动主要由摄像机运动和物体运动组成，这两者都会导致物体的运动。精确控制摄像机和物体的运动对于视频生成至关重要。现有的方法要么主要关注一种运动类型，要么没有明确区分这两者，限制了它们的控制能力和多样性。因此，MotionCtrl被提出作为一种统一而灵活的视频生成运动控制器，旨在有效且独立地控制摄像机和物体的运动。MotionCtrl的架构和训练策略经过精心设计，考虑了摄像机运动、物体运动和训练数据的固有特性。与之前的方法相比，MotionCtrl具有以下三个主要优点：

可以有效且独立地控制摄像机运动和物体运动，实现更精细的运动控制，促进两种运动的灵活多样组合。
其运动条件是由摄像机姿态和轨迹决定，这些姿态和轨迹与生成视频中的对象的外观或形状无关。
是一个相对通用的模型，可以适应广泛的摄像机姿态和训练后的轨迹。

方法

MotionCtrl通过摄像机运动控制模块（CMCM）扩展了LVDM的降噪U-Net结构，并添加了物体运动控制模块（OMCM）。CMCM将相机姿态序列RT与LVDM的时间自注意模块结合，通过将RT附加到输入中并应用定制和轻量级全连接层，提取相机姿态特征供后续处理。OMCM利用卷积层和下采样从轨迹中提取多尺度特征，这些特征在空间上与LVDM的卷积层进行注册，用于指导物体运动。