语音克隆工具GPT-SoVITS-v2 新功能详解

AIGC项目教程2个月前更新 wanglu852
6,402 0 0
广告也精彩

UVR5 模型更新

人声分离效果提升

  1. 模型替换:将 hp2​ 模型替换为 model_bs_roformer_ep_317_sdr_12.9755​ 模型,大幅提升分离人声的效果。
  2. 新增去混响模型:新增 DeEchoNormal​ 和 DeReverb​ 模型,去混响效果 Normal < Aggressive < DeReverb​。

切分、降噪、打标、校对功能增强

自动填充路径

  1. 自动填充路径:自动填充文件路径,简化操作流程。

多语言支持

  1. 多语言标注功能funasr​ 增加粤语,whisper​ 增加韩语和粤语标注功能。funasr​ 的粤语标注更为准确。
  2. 推理精度选择whisper​ 可选推理精度,float16​ 可以带来更快的推理速度。

预处理优化

多音字处理

  1. 中文多音字优化:中文改为 G2PW​ 处理以优化多音字效果,但处理速度变慢了。
  2. 英文多音字优化:优化了英文多音字效果,处理速度也变快了。

训练集更新

全新底膜与数据集

  1. 全新底膜:采用全新底膜,训练集增加到 5k 小时。
  2. 多语言支持:增加韩粤两种语言。
  3. 数据集需求减少:训练所需数据集更少。

推理功能增强

跨语种合成

  1. zero shot 效果增强zero shot​ 效果大幅增强。
  2. 多语种支持:中日英韩粤 5 个语种均可跨语种合成。
  3. 低音质音频优化:对低音质参考音频合成出来音质更好。
  4. 文本前端优化:更好的文本前端,中英文加入多音字优化。
  5. 语速调节:增加语速调节功能。
  6. 音色融合:增加音色融合功能。

注意事项

模型兼容性

  1. V1 与 V2 兼容性:V1 的模型可以在 V2 使用,但没有 V2 所带来的提升效果。V2 的模型不能在 V1 使用。
  2. 训练集还原度:相比 V1,V2 对训练集的还原更好,但也更容易学习到训练集中的负面内容。如果素材中有底噪、混响、喷麦、响度不统一、电流声、口水音、口齿不清、音质差等情况,请不要调高 SoVITS 模型轮数,否则会有负面效果。

感悟

我认为:GPT-SoVITS-v2 的更新不仅在技术上实现了质的飞跃,更在用户体验和应用场景上提供了更多可能性。通过引入新的模型和优化算法,GPT-SoVITS-v2 在多语言支持、音质提升、操作便捷性等方面都有显著进步,这将极大推动语音合成技术的发展和应用。

GPT-SoVITS-v2下载链接:https://www.yizz.cn/app/5463.html

© 版权声明
chatgpt4.0

相关文章

error: Content is protected !!