ReSyncer

2年前发布 53,050 0 0

ReSyncer: 重新设计的基于样...

收录时间：

2024-08-13

打开网站手机查看

ReSyncer: 重新设计的基于样式的生成器，用于统一的音视频同步面部表演者

作者信息

Jiazhi Guan^1,2*，Zhiliang Xu^2*，Hang Zhou^2†，Kaisiyuan Wang²，Shengyi He²，Zhanwang Zhang²
Borong Liang²，Haocheng Feng²，Errui Ding²，Jingtuo Liu²，Jingdong Wang²，Youjian Zhao^1,3†，Ziwei Liu⁴
1. 北京大学研究院，DCST，清华大学
2. 百度公司
3. 中关村实验室
4. 南洋理工大学，S-Lab
欧洲计算机视觉会议 (ECCV) 2024

摘要

口型同步视频与给定音频的同步是多种应用的基础，包括虚拟主持人或表演者的创建。尽管最近的研究探讨了使用不同技术实现高保真口型同步，但它们的任务导向模型要么需要针对特定片段的长期视频进行训练，要么会保留可见的伪影。本文提出了一种统一而有效的框架ReSyncer，该框架能够同步通用的音视频面部信息。关键设计在于重新审视和重新连接基于样式的生成器，以有效采用由原则性样式注入的变换器预测的3D面部动态。通过简单地重新配置噪声和样式空间内的信息插入机制，我们的框架融合了运动和外观，并实现了统一训练。大量实验表明，ReSyncer不仅能够根据音频生成高保真的口型同步视频，还支持多种适合创建虚拟主持人和表演者的引人注目的特性，包括快速个性化微调、视频驱动的口型同步、说话风格的转移，甚至面部交换。

演示视频

总结

本文介绍的ReSyncer框架为音视频同步的研究提供了新的思路，尤其在虚拟表演者的创建方面具有广泛的应用前景。目标受众包括计算机视觉、机器学习领域的研究人员和开发者，以及任何对虚拟现实和增强现实技术感兴趣的创作者和艺术家。无论是在娱乐行业、教育领域还是社交媒体内容创作中，ReSyncer都可能成为实现更高质量内容的重要工具。

关键词

ReSyncer, 口型同步, 虚拟表演者, 计算机视觉, 机器学习, 样式生成器, 3D面部动态

数据统计

相关导航

ReSyncer

ReSyncer: 重新设计的基于样式的生成器，用于统一的音视频同步面部表演者

作者信息

摘要

演示视频

总结

关键词

数据统计

相关文章

相关导航

Hedra

Wonder Studio

拍我AI

一帧秒创

谷歌Veo

Vizard录屏

Elai.io

BgRem

网址

豆包

效率坊视频解析工具

CogVideoX-Fun

Adetailer

RunningHub

秋葉aaaki

智能体

ReSyncer

ReSyncer: 重新设计的基于样式的生成器，用于统一的音视频同步面部表演者

作者信息

摘要

演示视频

总结

关键词

数据统计

相关文章

相关导航

Hedra

Wonder Studio

拍我AI

一帧秒创

谷歌Veo

Vizard录屏

Elai.io

BgRem

标签云

网址

豆包

效率坊视频解析工具

CogVideoX-Fun

Adetailer

RunningHub

秋葉aaaki

智能体