UVR5 模型更新
人声分离效果提升
- 模型替换:将
hp2
模型替换为model_bs_roformer_ep_317_sdr_12.9755
模型,大幅提升分离人声的效果。 - 新增去混响模型:新增
DeEchoNormal
和DeReverb
模型,去混响效果Normal < Aggressive < DeReverb
。
切分、降噪、打标、校对功能增强
自动填充路径
- 自动填充路径:自动填充文件路径,简化操作流程。
多语言支持
- 多语言标注功能:
funasr
增加粤语,whisper
增加韩语和粤语标注功能。funasr
的粤语标注更为准确。 - 推理精度选择:
whisper
可选推理精度,float16
可以带来更快的推理速度。
预处理优化
多音字处理
- 中文多音字优化:中文改为
G2PW
处理以优化多音字效果,但处理速度变慢了。 - 英文多音字优化:优化了英文多音字效果,处理速度也变快了。
训练集更新
全新底膜与数据集
- 全新底膜:采用全新底膜,训练集增加到 5k 小时。
- 多语言支持:增加韩粤两种语言。
- 数据集需求减少:训练所需数据集更少。
推理功能增强
跨语种合成
- zero shot 效果增强:
zero shot
效果大幅增强。 - 多语种支持:中日英韩粤 5 个语种均可跨语种合成。
- 低音质音频优化:对低音质参考音频合成出来音质更好。
- 文本前端优化:更好的文本前端,中英文加入多音字优化。
- 语速调节:增加语速调节功能。
- 音色融合:增加音色融合功能。
注意事项
模型兼容性
- V1 与 V2 兼容性:V1 的模型可以在 V2 使用,但没有 V2 所带来的提升效果。V2 的模型不能在 V1 使用。
- 训练集还原度:相比 V1,V2 对训练集的还原更好,但也更容易学习到训练集中的负面内容。如果素材中有底噪、混响、喷麦、响度不统一、电流声、口水音、口齿不清、音质差等情况,请不要调高 SoVITS 模型轮数,否则会有负面效果。
感悟
我认为:GPT-SoVITS-v2 的更新不仅在技术上实现了质的飞跃,更在用户体验和应用场景上提供了更多可能性。通过引入新的模型和优化算法,GPT-SoVITS-v2 在多语言支持、音质提升、操作便捷性等方面都有显著进步,这将极大推动语音合成技术的发展和应用。
GPT-SoVITS-v2下载链接:https://www.yizz.cn/app/5463.html
© 版权声明
文章版权归作者所有,未经允许请勿转载。