语音克隆工具GPT-SoVITS-v2 新功能详解

AIGC项目教程2年前发布 wanglu852

UVR5 模型更新

人声分离效果提升

模型替换：将 hp2 模型替换为 model_bs_roformer_ep_317_sdr_12.9755 模型，大幅提升分离人声的效果。
新增去混响模型：新增 DeEchoNormal 和 DeReverb 模型，去混响效果 Normal < Aggressive < DeReverb。

切分、降噪、打标、校对功能增强

自动填充路径

自动填充路径：自动填充文件路径，简化操作流程。

多语言支持

多语言标注功能：funasr 增加粤语，whisper 增加韩语和粤语标注功能。funasr 的粤语标注更为准确。
推理精度选择：whisper 可选推理精度，float16 可以带来更快的推理速度。

预处理优化

多音字处理

中文多音字优化：中文改为 G2PW 处理以优化多音字效果，但处理速度变慢了。
英文多音字优化：优化了英文多音字效果，处理速度也变快了。

训练集更新

全新底膜与数据集

全新底膜：采用全新底膜，训练集增加到 5k 小时。
多语言支持：增加韩粤两种语言。
数据集需求减少：训练所需数据集更少。

推理功能增强

跨语种合成

zero shot 效果增强：zero shot 效果大幅增强。
多语种支持：中日英韩粤 5 个语种均可跨语种合成。
低音质音频优化：对低音质参考音频合成出来音质更好。
文本前端优化：更好的文本前端，中英文加入多音字优化。
语速调节：增加语速调节功能。
音色融合：增加音色融合功能。

注意事项

模型兼容性

V1 与 V2 兼容性：V1 的模型可以在 V2 使用，但没有 V2 所带来的提升效果。V2 的模型不能在 V1 使用。
训练集还原度：相比 V1，V2 对训练集的还原更好，但也更容易学习到训练集中的负面内容。如果素材中有底噪、混响、喷麦、响度不统一、电流声、口水音、口齿不清、音质差等情况，请不要调高 SoVITS 模型轮数，否则会有负面效果。

感悟

我认为：GPT-SoVITS-v2 的更新不仅在技术上实现了质的飞跃，更在用户体验和应用场景上提供了更多可能性。通过引入新的模型和优化算法，GPT-SoVITS-v2 在多语言支持、音质提升、操作便捷性等方面都有显著进步，这将极大推动语音合成技术的发展和应用。

GPT-SoVITS-v2下载链接：https://www.yizz.cn/app/5463.html

AIGC项目教程 # GPT-SoVITS # 音质优化

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

爆文创作方法（六）如何用ChatGPT赋能公众号爆款写作？

爆文创作方法（六）如何用ChatGPT赋能公众号爆款写作？

AIGC项目教程 # ChatGPT # 公众号写作 # 写作新手

2年前

45,0720

如何利用AI工具搭建一鱼多吃的知识体系和内容经济系统？

如何利用AI工具搭建一鱼多吃的知识体系和内容经济系统？

AIGC项目教程 # AI内容创作 # 个人品牌建设 # 内容杠杆

2年前

26,2900

利用chatgpt进行爆文创作（三）选题怎么找？

利用chatgpt进行爆文创作（三）选题怎么找？

AIGC项目教程 # 公众号 # 内容创作 # 写作技巧

2年前

24,1410

PV助手新手安装使用教程（二）如何安装下载大模型和LORA模型？

PV助手新手安装使用教程（二）如何安装下载大模型和LORA模型？

AIGC项目教程 # PV助手

2年前

116,9390

error: Content is protected !!