如何快速上手开源轻量级数字人模型：从安装到训练全解析

AI前沿10个月前发布 yizz

34,987 0 0

如何使用开源轻量级数字人模型？

在当今数字化时代，轻量级数字人模型的应用越来越广泛。本文将为您详细介绍如何使用这个模型，从安装依赖到训练模型，步骤清晰，逻辑严谨。

什么是Ultralight Digital Human模型？

Ultralight Digital Human是一个能够在移动设备上实时运行的数字人模型，是第一个开源的如此轻量级的数字人模型。这一模型的开源意味着更多的开发者可以参与到数字人技术的探索中。

如何下载和安装这个模型？

步骤一：下载源码

首先，您需要从以下地址下载源码：
Ultralight Digital Human源码

步骤二：安装依赖

下载源码后，按照以下步骤安装依赖：

创建并激活新的虚拟环境：
bash
conda create -n dh python=3.10
conda activate dh
安装PyTorch及其相关库：
bash
conda install pytorch==1.13.1 torchvision==0.14.1 torchaudio==0.13.1 pytorch-cuda=11.7 -c pytorch -c nvidia
安装其他必要的库：
bash
conda install mkl=2024.0
pip install opencv-python transformers numpy==1.23.5 soundfile librosa onnxruntime

如何下载模型和准备数据？

步骤一：下载模型

模型文件可以从以下链接下载：
模型下载链接

下载后，将模型文件放到源码中的data_utils/目录下。

步骤二：准备视频数据

您需要准备一个3到5分钟的视频，确保视频中的人物每一帧都有整张脸露出，并且声音清晰无杂音。将视频放在一个新的文件夹中。

如何提取音频特征？

提取音频特征的过程使用了两种不同的特征提取器：Wenet和Hubert。

Wenet要求视频帧率为20fps。
Hubert要求视频帧率为25fps，效果更佳，但处理速度相对较慢。

提取音频特征的命令如下：
bash
cd data_utils
python process.py YOUR_VIDEO_PATH –asr hubert

如何训练模型？

步骤一：训练SyncNet

为了获得更好的效果，建议先训练一个SyncNet。运行以下命令：
bash
cd ..
python syncnet.py –save_dir ./syncnet_ckpt/ –dataset_dir ./data_dir/ –asr hubert

步骤二：训练数字人模型

找到损失值最低的checkpoint，然后训练数字人模型：
bash
cd ..
python train.py –dataset_dir ./data_dir/ –save_dir ./checkpoint/ –asr hubert –use_syncnet –syncnet_checkpoint syncnet_ckpt