AI数字人AI视频工具

LivePortrait

LivePortrait——一个高效的portrait动画制作工具,它通过缝合和重定位控制来高效地在不同风格和尺寸间动画化肖像。

标签:
广告也精彩

图生视频模型LivePortrait概述

快手公司最近开源了图生视频模型LivePortrait,这个模型区别于可灵AI,它能够在10秒内生成视频,而且它采用了隐式关键点框架技术,取代了扩散模型。这项技术的开源大大降低了人们拥有自己数字人的门槛。网友尝试使用开源代码进行部署后发现,即使是生成10秒的视频,也只需要10秒,速度之快令人惊叹。这种超快的生成速度意味着LivePortrait的生成能力已经无限逼近实时,未来有可能在实时应用中发挥巨大作用,如视频会议、社交媒体直播和实时游戏动画等场景。

LivePortrait

技术特点

LivePortrait模型的架构包括多个关键组件:

  • 外观特征提取器
  • 规范隐式关键点检测器
  • 头部姿势估计网络
  • 表情变形估计网络
  • 扭曲场估计器
  • 生成器

这些组件协同工作,将源图像的特征与驱动视频的运动特征结合起来,生成最终的动画。

隐式关键点框架

其中最引人注目的是,LivePortrait放弃了我们熟悉的扩散模型,而是采用了隐式关键点框架。这种框架使用一组抽象的特征来表示图像,这些特征重点捕捉了图像的重要信息,例如面部特征、轮廓等。生成人物动作和表情时,LivePortrait更不容易崩坏,因为它关键点通常对应于面部的特定部位,如眼角、嘴角、鼻子等,这些关键点的位置和变化可以驱动面部表情和头部运动。因此,隐式关键点框架具备良好的灵活性,并且通过操作关键点,模型可以更精确地控制面部动画的细节,实现平滑和逼真的过渡效果。

训练方法和数据

在训练方法上,LivePortrait的训练分成了两个阶段:

第一阶段

模型在没有任何预训练的权重下,从零开始全面训练,使用了8个NVIDIA A100 GPU,训练时间约为10天。

第二阶段

只训练缝合和重定向模块,而保持其他参数不变。训练缝合模块可以确保动画后的肖像能够无缝地融入原始图像空间,特别是在处理多人肖像或全身图像时;而训练眼睛和嘴唇的重定向模块,以便能够根据驱动视频精确控制这些面部特征的运动。第二阶段的训练时间约为2天。

在训练数据上,LivePortrait的训练数据规模扩展到了约6900万高质量的帧,训练数据包括各种姿势和表情的4K分辨率肖像视频,以及大量的头部谈话视频。

应用前景

尽管技术的进步是孤立发生的,但如果被滥用,其影响可能深远且复杂。在这样的背景下,我们不得不深思:公众的媒介素养应该如何提升,才能追得上技术的日新月异。LivePortrait的开源可能会在未来带来更多的应用场景和技术革新。

结论

综上所述,快手的LivePortrait模型采用了一种新颖的技术框架,即隐式关键点框架,这使得它在生成视频时速度更快且质量更高。此外,它的开源也为更多开发者提供了可能性,有望在未来推动更多基于此模型的应用出现。

论文地址:
https://arxiv.org/pdf/2407.03168

总结

LivePortrait模型的出现不仅展示了技术的创新,更预示着实时生成技术的广阔前景。它适用于多种场景,包括视频会议、社交媒体直播和实时游戏动画等。对开发者而言,这一开源项目提供了巨大的潜力和机会。

数据统计

相关导航

error: Content is protected !!