图生视频模型 LivePortrait概述

快手公司最近开源了图生视频模型LivePortrait，这个模型区别于可灵AI,它能够在10秒内生成视频，而且它采用了隐式关键点框架技术，取代了扩散模型。这项技术的开源大大降低了人们拥有自己数字人的门槛。网友尝试使用开源代码进行部署后发现，即使是生成10秒的视频，也只需要10秒，速度之快令人惊叹。这种超快的生成速度意味着LivePortrait的生成能力已经无限逼近实时，未来有可能在实时应用中发挥巨大作用，如视频会议、社交媒体直播和实时游戏动画等场景。

技术特点

LivePortrait模型的架构包括多个关键组件：

外观特征提取器
规范隐式关键点检测器
头部姿势估计网络
表情变形估计网络
扭曲场估计器
生成器

这些组件协同工作，将源图像的特征与驱动视频的运动特征结合起来，生成最终的动画。

隐式关键点框架

其中最引人注目的是，LivePortrait放弃了我们熟悉的扩散模型，而是采用了隐式关键点框架。这种框架使用一组抽象的特征来表示图像，这些特征重点捕捉了图像的重要信息，例如面部特征、轮廓等。生成人物动作和表情时，LivePortrait更不容易崩坏，因为它关键点通常对应于面部的特定部位，如眼角、嘴角、鼻子等，这些关键点的位置和变化可以驱动面部表情和头部运动。因此，隐式关键点框架具备良好的灵活性，并且通过操作关键点，模型可以更精确地控制面部动画的细节，实现平滑和逼真的过渡效果。

训练方法和数据

在训练方法上，LivePortrait的训练分成了两个阶段：

第一阶段

模型在没有任何预训练的权重下，从零开始全面训练，使用了8个NVIDIA A100 GPU，训练时间约为10天。

第二阶段

只训练缝合和重定向模块，而保持其他参数不变。训练缝合模块可以确保动画后的肖像能够无缝地融入原始图像空间，特别是在处理多人肖像或全身图像时；而训练眼睛和嘴唇的重定向模块，以便能够根据驱动视频精确控制这些面部特征的运动。第二阶段的训练时间约为2天。

在训练数据上，LivePortrait的训练数据规模扩展到了约6900万高质量的帧，训练数据包括各种姿势和表情的4K分辨率肖像视频，以及大量的头部谈话视频。

应用前景

尽管技术的进步是孤立发生的，但如果被滥用，其影响可能深远且复杂。在这样的背景下，我们不得不深思：公众的媒介素养应该如何提升，才能追得上技术的日新月异。LivePortrait的开源可能会在未来带来更多的应用场景和技术革新。

结论

综上所述，快手的LivePortrait模型采用了一种新颖的技术框架，即隐式关键点框架，这使得它在生成视频时速度更快且质量更高。此外，它的开源也为更多开发者提供了可能性，有望在未来推动更多基于此模型的应用出现。

论文地址：
https://arxiv.org/pdf/2407.03168

总结

LivePortrait模型的出现不仅展示了技术的创新，更预示着实时生成技术的广阔前景。它适用于多种场景，包括视频会议、社交媒体直播和实时游戏动画等。对开发者而言，这一开源项目提供了巨大的潜力和机会。

LivePortrait

图生视频模型 LivePortrait概述

技术特点

隐式关键点框架

训练方法和数据

第一阶段

第二阶段

应用前景

结论

总结

数据统计

相关导航

LivePortrait

图生视频模型LivePortrait概述

技术特点

隐式关键点框架

训练方法和数据

第一阶段

第二阶段

应用前景

结论

总结

数据统计

相关导航

图生视频模型 LivePortrait概述