EMO: 激活表情肖像视频的生成 – 在弱条件下利用Audio2Video扩散模型

AI前沿1年前 (2024)发布 wanglu852

23,213 0 0

作者：Linrui Tian, Qi Wang, Bang Zhang, Liefeng Bo
机构：阿里巴巴集团智能计算研究院

概述

我们提出了 EMO，一个表情丰富的音频驱动的肖像视频生成框架。只需输入一张参考图片和声音（如说话和唱歌），我们的方法就能生成具有表情丰富的面部表情和多样头部姿势的声音化身视频，同时，我们还能根据输入视频的长度生成任意时长的视频。

方法

概览

我们的框架主要包含两个阶段。第一阶段，称为帧编码，通过ReferenceNet从参考图像和运动帧中提取特征。随后，在扩散过程阶段，一个预训练的音频编码器处理音频嵌入。面部区域掩码与多帧噪声结合，以控制面部图像的生成。接着，采用主干网络来进行去噪操作。在主干网络内部，应用了两种形式的注意力机制：参考注意力和音频注意力。这些机制对于保持角色的身份和调节角色的动作分别至关重要。此外，还利用了时间模块来操纵时间维度，并调整运动的速度。

各种生成视频

唱歌

让肖像唱歌

输入单一角色图像和声音（如唱歌），我们的方法可以生成具有表情丰富的面部表情和多样头部姿势的声音化身视频，同时，我们还能根据输入音频的长度生成任意时长的视频。我们的方法还能在长时间内保持角色的身份。

不同语言和肖像风格

我们的方法支持多种语言的歌曲，并赋予多样的肖像风格以生命。它直观地识别音频中的音调变化，使得生成的头像动态且富有表情。

快速节奏

受驱动的头像能够跟上快节奏，确保即使是最快的歌词也能与表情丰富且动态的角色动画同步。

对话

与不同角色对话

我们的方法不仅限于处理唱歌的音频输入，它还能够处理多种语言的口语音频。此外，我们的方法能够为过去的肖像、绘画以及3D模型和AI生成的内容赋予生动的动作和现实感。

跨演员表现

探索我们方法的潜在应用，它使得电影角色的肖像能够用不同的语言和风格进行独白或表演，我们可以在多语言和多文化的背景下扩展角色表现的可能性。

总结与感悟

EMO框架的提出，不仅为音频驱动的肖像视频生成领域带来了新的技术突破，也极大地拓宽了虚拟角色表现的边界。通过精细地控制面部表情和头部姿势，EMO能够在保持角色身份的同时，赋予角色丰富的情感和动态的表现力。特别是它对不同语言和风格的支持，让角色能够跨越文化和时代的界限，实现更加多元和包容的表达。这不仅对于娱乐产业，也对于教育、培训等领域具有深远的影响，为我们提供了一个全新的角色互动和故事叙述的方式。