AI数字人AI训练模型

EMO

阿里EMO模型:创造极致真实的肖像视频,开创内容创作新纪元

标签:
广告也精彩

EMO框架:生成表情丰富的肖像视频的新技术

摘要:EMO框架是由阿里巴巴集团智能计算研究院研发的一种新型生成式AI模型,名为Emote Portrait Alive。该模型可以通过输入一张人物肖像照片和音频,生成具有丰富面部表情和头部姿势的声音头像视频。它通过直接音频到视频的合成方法,无需中间3D模型或面部标记,能够生成不仅令人信服的说话视频,还包括各种风格的唱歌视频。EMO模型利用了Audio2Video扩散模型、注意力机制和去噪网络等先进技术,在多个指标上超越了当前最先进的方法,并已在通义App上线,向所有用户免费开放。

EMO

EMO模型的技术亮点

真实性和表现力

EMO模型能够生成不仅令人信服的说话视频,还包括各种风格的唱歌视频,显著超越现有技术水平。

网络管道

EMO的网络结构包括参考网络(ReferenceNet)扩散过程音频编码器背景网络等组件。

实验结果

在HDTF数据集上进行了广泛的实验和比较,证明了EMO在多个指标上超越了当前最先进的方法。

EMO模型的应用

用户可以在歌曲、热梗、表情包中任选一款模板,然后上传一张肖像照片,让EMO合成演戏唱歌视频。这一功能现已正式上线通义App,并对所有用户免费开放

EMO模型的技术原理

EMO模型的技术原理包括使用Audio2Video扩散模型,这一技术主要包括三个阶段:帧编码的初始阶段、特征提取以及视频生成。此外,EMO还利用了先进的注意力机制去噪网络,支持多语言和多种肖像风格的动态表现。

行业关注和争议

EMO模型的发布引起了广泛关注,被外媒称为Sora之后最受期待的大模型之一。然而,这项技术也引发了一些争议,比如关于视频真实性和可信度的问题。尽管如此,EMO模型无疑展示了阿里巴巴在AI领域的强大实力和创新能力

总结

EMO框架是一个重要的突破,它不仅提升了音频到视频合成的真实性和表现力,还为内容创作者和虚拟角色动画制作者提供了新的工具。尽管存在一些争议,但其技术的先进性和广泛的应用前景已受到业界的认可。

目标受众:内容创作者、多媒体编辑、虚拟角色动画制作者、AI技术爱好者。

应用场景:个性化视频制作、虚拟角色演讲、动画电影和游戏制作、在线教育等。

#AI创新

本站附 EMO 官网入口:

官方项目主页:https://humanaigc.github.io/emote-portrait-alive/

arXiv 研究论文:https://arxiv.org/abs/2402.17485

GitHub:https://github.com/HumanAIGC/EMO(模型和源码待开源)

数据统计

相关导航

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...
error: Content is protected !!