引言
在2025年1月9日,卡尔的AI沃茨 (@aiwarts) 在X平台上发布了一系列帖子,详细介绍了HeyGen与Sora合作推出的数字人项目,并对三款AI真人的效果进行了横评。这篇文章将整理这些内容,探讨这些AI工具在成本、功能和效果上的表现。
HeyGen和Sora联名数字人
HeyGen和Sora联手推出了一款数字人产品,卡尔的AI沃茨利用这一技术,以十分之一的成本成功复制了即梦、可灵与海螺的三款AI真人。效果非常出色,尽管成本依旧不菲,但这也预示着其他AI视频的数字人效果已经达到了商用级别。
🙀 HeyGen和Sora联名推出数字人,我用1/10的成本复刻出即梦、可灵与海螺的三款AI真人
效果确实是强哈。就是这费用依旧很美丽(用不起啊)
而且既然Sora能用,是不是也预告着其他的AI视频的数字人效果也达到了商用级别?
所以,我横评了可灵、即梦、以及 Flux +海螺来一个AI真人效果大PK!
可灵 1.6的测试
可灵1.6版本同时具备图片生成、视频生成和口型同步功能。测试步骤如下:
- 生成真人照片:使用可图1.5生成一张相似的真人照片。
- 生成视频:使用可灵1.6一键生成视频,提示语为“一个女人在说话”。
- 口型同步:在生成的视频左下角点击“对口型”功能,上传音频完成同步。
可灵支持多语言口型同步,视频模型1.6在面部肌肉变化、头部晃动和眨眼方面表现自然,效果接近HeyGen的水准。遗憾的是,可灵目前只能对其站内生成的视频进行口型同步,无法上传外部视频。
一、可灵 1.6
@Kling_ai 可灵站内同时具备图片生成、视频生成、口型同步三个功能,所以我们直接一套来测。
- 用可图1.5 生成一张相似的真人照片
- 用可灵1.6 一键生成视频,我用的视频生成提示语是“一个女人在说话”
- 在生成好的视频的左下角可以点击“对口型”功能,上传音频就可以完成
可灵目前支持多语言的口型同步,在1.6视频模型的加持下,面部肌肉会伴随口型动作有相应的变化,头部晃动和眨眼也很自然,可以达到媲美Heygen的程度。
小遗憾是,可灵目前只可以对自己站内生成的视频进行口型同步,不能自主上传视频。
即梦的测试
即梦2.1版本的图片生成模型和即梦p2.0 pro视频模型用于生成真人照片和视频。测试步骤如下:
- 生成真人照片:使用即梦2.1生成真人照片。
- 生成视频:使用即梦p2.0 pro生成视频,提示语为“女人正在说话”。
- 口型同步:选择视频,点击“小嘴巴”标志进入对口型功能,直接上传音频进行同步。
即梦目前只支持中文对口型,AI感较为明显,尤其在人物动作不大的情况下,口型同步后的效果显得不自然。不过,即梦支持本地上传视频进行口型同步,最长支持30秒视频。
二、即梦
- 用即梦2.1 @dreamina_ai 图片生成模型,生成一张真人照片
- 然后直接生成女人正在说话的视频,这里我用的是 即梦p2.0 pro 视频模型,
- 即梦同时也具有一站式的对口型工具,选择我们要使用的视频点击“小嘴巴”标志就可以进入到对口型的功能界面。然后直接上传想要对口型的音频就可以一键生成了!
不过即梦目前只支持中文对口型,AI感还是稍微有些明显,但这可能是因为在生成视频时,人物动作尤其是嘴巴没有太大的动作,导致对完口型后嘴巴大幅度的动作会显得有些不太自然。
好的地方是即梦目前支持本地上传视频对口型(随心所欲),最多支持30s视频的口型同步。
FLUX + 海螺 + 即梦的测试
结合FLUX的高写实性、海螺的动作生成以及即梦的口型同步功能,进行了一个强强联合的测试:
- 生成真人照片:在liblib选择F1.0模型生成亚洲女生正面照。
- 生成视频:将照片导入海螺生成5秒视频。
- 口型同步:将视频上传到即梦,使用相同音频进行口型同步。
整体效果比即梦自身生成的视频更为自然,牙齿和面部动作更为流畅。这解释了为什么HeyGen会选择与Sora合作,因为要达到真实Oops, something broke. Talk to me later?