RVC语音模型训练教程，从0开始学

介绍

这期教程主要是来教大家如何从零开始自己去训练一个语音模型，也算是记录一下这几天自己折腾的结果吧。

在我的安装包里文件目录可以找到这两个，第一个是RVC变声器客户端，第2个是训练模型使用的web端，我们这期主要讲训练模型。

准备工作

首先我们打开这个项目的GITHUB仓库主页，https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI 可以看到他的作者已经写了很多详细的说明。如果你想自己训练语音模型的话，你不需要有任何的编程基础，你只需要能够会下载软件，会看得懂说明。因为剩下的一切只是使用这个模型的话，都是一个傻瓜式的操作。并且项目作者（花儿不哭）在B站也发了演示的视频，可以直接先过去看一下。

环境搭建

同时你还得有大概一到两个小时的时间去折腾，因为从制作训练集下载程序到能够正式开始跑你的模型是需要大概一到两个小时的时间的，可能还会碰到一些奇怪的问题会花更长的时间。我是在搭好环境之后才发现项目的作者提供了完整的包（关注AI掌门堂，回复RVC)，同时你还需要一张N卡，而且是要20系以上的N卡，也就是说十六十系以下的N卡、A卡还有核显都是不支持的。如果满足不了这个条件的话，可以参考项目的使用云GPU去训练的方法。这个方法我就不详说了，或者去使用其他项目、其他变声器带有这种训练功能的项目去训练，他们的话可能会支持持续包括十系以下的显卡。

制作自己的语音模型

如果你想制作自己的或者是现实中存在的人的语音模型，你只需要让你那个下制作语音模型的人去录制一段干声就可以了，内容是什么都可以，只需要干净就行。大概需要有10分钟以上的语音量就OK了。但你录制完成以后可能会有底噪也跟着被录制进去，所以我们要对其进行降噪。最好用AU进行处理一下。

降噪处理

接下来我们来讲解一下如何进行降噪处理。首先双击进入音频文件编辑器，我们先来试听一下带有底噪的效果。很明显地听到这一段声音里面有很浓郁的底噪。接着我们选取一段纯噪声的部分，选择效果-降噪-降噪处理，点击捕捉噪声样本，选择完整文件。这里可以对降噪的效果进行一个微调，直接在图形上的那根曲线调整就可以了。一般我们直接点击应用就可以了。现在我们再来试听一遍，你只要打开录制之后一直保持说话，听到刚刚的底噪已经很明显地被降低了。这就完成了对人声的降噪。接着我们只需要将这一段处理过的音频导出到一个文件夹中存好就可以了。

制作角色语音模型

如果你是想制作自己喜欢的角色的语音模型，首先你可以去网上找一下有没有已经处理好的语音文件，例如游戏中解放出来的语音或者是人家专门为AI训练而已经准备好的训练集。如果实在找不到的话，我们也可以自己进行录制。这里以原神为例，进入游戏以后关闭除了游戏语音以外的所有声音，然后打开剧情的回放，点击需要的角色语音。在录制之前，建议先把后台中能够发出声音的app给关掉或者在音量合成器中把它静音，例如QQ和微信那些。如果中途不小心录到了其他声音也没关系，后期将混入杂音的片段给剪掉就可以了。

后期处理

让录制好的视频导入pr以后，拖进时间轴就会得到一个界面。这个时候我们需要做的是选择我们需要的音轨，也就是人生所在那个音轨。然后我们现在先不用剪辑任何东西，除非你录了很多无关的素材，那你就可以把语音以外的片段给它剪掉。当然这一步的话你也是可以在导出音频之后用音频软件进行处理剪辑都是一样的。我们剪辑完成以后就可以把它给导出了。你也可以直接使用入点和出点帮助你需要的素材部分，然后跟TRL加N直接导出导出。这里我们选择为波形音频，它就能导出一个WAV格式的文件。这时候其他设置什么都不用选，只需要把你的路径和你的导出名称设置到指定的文件夹里就可以了。

训练前需要调整的几个参数：

输入语音模型的名字
目标采样率（40K）
音高指导（true）
版本选择（v2）
CPU线程数（默认）
训练集路径（填写自己录好的干声）
最终音频导出路径（默认）
说话人的id（默认为零）
音高算法模型（一般选择harvest）
训练的参数保存频率（几轮保存一次，显存够大不怕崩就往大了设，一般20-50）
每张显卡的batch_size（根据显存大小调整，6G显存最高设置8做参考）
总训练轮数（根据显存大小调整，100-500）
调整好之后就可以点击一键训练了
- 如何使用实时的RVC推理器：
使用本体的实时的RVC推理器
当训练完成之后，我们把软件安装目录的weights目录下的文件和logs下的这两个文件放到模型文件里，用rvc变声器来加载模型就可以实现时实变声了！
添加模型
进行变声操作
- 对于训练出来的语音模型的效果：
男变女的话，音调要正12左右
女变男的话，音调要-12左右
选择合适的音调与模型进行匹配