快手近日宣布推出一种名为LivePortrait的高效肖像动画技术,该技术能够从单张源图像和驱动视频生成生动的视频,展示了出色的泛化能力、可控性和效率,已在快手多项功能中得到应用。
LivePortrait技术的核心在于其独特的架构设计,包括外观特征提取器、规范隐式关键点检测器、头部姿势估计网络、表情变形估计网络、扭曲场估计器和生成器。这些组件共同作用,将源图像的特征与驱动视频的运动特征融合,生成高质量的动画视频。与传统的扩散模型相比,LivePortrait的关键点框架使用一组抽象的特征来表示图像,重点关注面部特征、轮廓等重要信息,从而实现了更快的生成速度和更逼真的效果。
值得一提的是,快手已将LivePortrait模型开源,极大降低了拥有数字人的门槛。用户利用开源代码生成10秒视频仅需10秒,展现出惊人的速度。未来,该技术有望在视频会议、社交媒体直播和实时游戏动画等实时应用场景中发挥重要作用。
LivePortrait的训练分为两个阶段,第一阶段从零开始全面训练,使用8个NVIDIA A100 GPU,耗时约10天;第二阶段仅训练缝合和重定向模块,耗时约2天。训练数据规模达6900万高质量帧,涵盖了各种姿势和表情的4K分辨率肖像视频及大量头部谈话视频。
此外,LivePortrait技术还可应用于数字人领域,仅需一张肖像照片和一段文字或音频,即可生成开口说话的数字人视频,适用于视频直播、聊天机器人、企业营销等多种场景。
快手LivePortrait技术的推出,标志着计算机视觉和深度学习技术的新突破,为用户提供了全新的视频生成体验。随着技术的不断进步和应用场景的拓展,LivePortrait有望在未来发挥更大作用,推动更多相关应用程序和服务的发展。
© 版权声明
文章版权归作者所有,未经允许请勿转载。