图生视频模型LivePortrait概述
快手公司最近开源了图生视频模型LivePortrait,这个模型区别于可灵AI,它能够在10秒内生成视频,而且它采用了隐式关键点框架技术,取代了扩散模型。这项技术的开源大大降低了人们拥有自己数字人的门槛。网友尝试使用开源代码进行部署后发现,即使是生成10秒的视频,也只需要10秒,速度之快令人惊叹。这种超快的生成速度意味着LivePortrait的生成能力已经无限逼近实时,未来有可能在实时应用中发挥巨大作用,如视频会议、社交媒体直播和实时游戏动画等场景。
技术特点
LivePortrait模型的架构包括多个关键组件:
- 外观特征提取器
- 规范隐式关键点检测器
- 头部姿势估计网络
- 表情变形估计网络
- 扭曲场估计器
- 生成器
这些组件协同工作,将源图像的特征与驱动视频的运动特征结合起来,生成最终的动画。
隐式关键点框架
其中最引人注目的是,LivePortrait放弃了我们熟悉的扩散模型,而是采用了隐式关键点框架。这种框架使用一组抽象的特征来表示图像,这些特征重点捕捉了图像的重要信息,例如面部特征、轮廓等。生成人物动作和表情时,LivePortrait更不容易崩坏,因为它关键点通常对应于面部的特定部位,如眼角、嘴角、鼻子等,这些关键点的位置和变化可以驱动面部表情和头部运动。因此,隐式关键点框架具备良好的灵活性,并且通过操作关键点,模型可以更精确地控制面部动画的细节,实现平滑和逼真的过渡效果。
训练方法和数据
在训练方法上,LivePortrait的训练分成了两个阶段:
第一阶段
模型在没有任何预训练的权重下,从零开始全面训练,使用了8个NVIDIA A100 GPU,训练时间约为10天。
第二阶段
只训练缝合和重定向模块,而保持其他参数不变。训练缝合模块可以确保动画后的肖像能够无缝地融入原始图像空间,特别是在处理多人肖像或全身图像时;而训练眼睛和嘴唇的重定向模块,以便能够根据驱动视频精确控制这些面部特征的运动。第二阶段的训练时间约为2天。
在训练数据上,LivePortrait的训练数据规模扩展到了约6900万高质量的帧,训练数据包括各种姿势和表情的4K分辨率肖像视频,以及大量的头部谈话视频。
应用前景
尽管技术的进步是孤立发生的,但如果被滥用,其影响可能深远且复杂。在这样的背景下,我们不得不深思:公众的媒介素养应该如何提升,才能追得上技术的日新月异。LivePortrait的开源可能会在未来带来更多的应用场景和技术革新。
结论
综上所述,快手的LivePortrait模型采用了一种新颖的技术框架,即隐式关键点框架,这使得它在生成视频时速度更快且质量更高。此外,它的开源也为更多开发者提供了可能性,有望在未来推动更多基于此模型的应用出现。
论文地址:
https://arxiv.org/pdf/2407.03168
总结
LivePortrait模型的出现不仅展示了技术的创新,更预示着实时生成技术的广阔前景。它适用于多种场景,包括视频会议、社交媒体直播和实时游戏动画等。对开发者而言,这一开源项目提供了巨大的潜力和机会。