AI数字人AI视频工具

ReSyncer

ReSyncer是一款基于样式生成器的创新框架,专为实现音视频同步的高保真面部表演而设计,支持个性化微调、视频驱动同步及说话风格转移等多功能应用。

标签:
广告也精彩

ReSyncer: 重新设计的基于样式的生成器,用于统一的音视频同步面部表演者

作者信息

Jiazhi Guan1,2*,Zhiliang Xu2*,Hang Zhou2†,Kaisiyuan Wang2,Shengyi He2,Zhanwang Zhang2
Borong Liang2,Haocheng Feng2,Errui Ding2,Jingtuo Liu2,Jingdong Wang2,Youjian Zhao1,3†,Ziwei Liu4
1. 北京大学研究院,DCST,清华大学
2. 百度公司
3. 中关村实验室
4. 南洋理工大学,S-Lab
欧洲计算机视觉会议 (ECCV) 2024

摘要

口型同步视频与给定音频的同步是多种应用的基础,包括虚拟主持人或表演者的创建。尽管最近的研究探讨了使用不同技术实现高保真口型同步,但它们的任务导向模型要么需要针对特定片段的长期视频进行训练,要么会保留可见的伪影。本文提出了一种统一而有效的框架ReSyncer,该框架能够同步通用的音视频面部信息。关键设计在于重新审视和重新连接基于样式的生成器,以有效采用由原则性样式注入的变换器预测的3D面部动态。通过简单地重新配置噪声和样式空间内的信息插入机制,我们的框架融合了运动和外观,并实现了统一训练。大量实验表明,ReSyncer不仅能够根据音频生成高保真的口型同步视频,还支持多种适合创建虚拟主持人和表演者的引人注目的特性,包括快速个性化微调、视频驱动的口型同步、说话风格的转移,甚至面部交换。

演示视频

总结

本文介绍的ReSyncer框架为音视频同步的研究提供了新的思路,尤其在虚拟表演者的创建方面具有广泛的应用前景。目标受众包括计算机视觉、机器学习领域的研究人员和开发者,以及任何对虚拟现实和增强现实技术感兴趣的创作者和艺术家。无论是在娱乐行业、教育领域还是社交媒体内容创作中,ReSyncer都可能成为实现更高质量内容的重要工具。

关键词

ReSyncer, 口型同步, 虚拟表演者, 计算机视觉, 机器学习, 样式生成器, 3D面部动态

数据统计

相关导航

error: Content is protected !!