什么是CosyVoice?
CosyVoice是由阿里团队开源的一款用于生成舒适自然的语音合成模型。这款整合包具备多种高级功能,如音色融合、字幕同步,并且最近更新了许多新的特性。本CosyVoice整合包包括window端和苹果mac端!
如何解决LVVM动态库报错问题?
许多用户反馈在使用CosyVoice时遇到LLVM动态库报错问题,其中最常见的错误是“LLVM ERROR:Symbol not found:svml_cosf8_ha”。
解决步骤:
- 找到错误目录:首先找到报错信息提示的目录,通常位于程序安装路径下。
- 复制DLL文件:将该目录下的DLL文件(动态链接库文件)复制出来。
- 粘贴DLL文件:将这些DLL文件粘贴到C:\Windows\System32目录下。
- 确保安装Cozy Voice:确保CosyVoice整合包软件已经安装,并且在GPU可用的情况下运行。
- 双击运行:双击运行CosyVoice整合包程序,并确保程序正常启动。
如何调整文本切分逻辑参数?
什么是Token?
Token参数决定了文本的切分粒度。设置越小,切分的文本越短;设置越大,切分的文本越长显存越高。
调整步骤:
- 找到参数设置:进入CosyVoice的设置页面,找到Token设置选项。
- 手动调整Token:根据需要调整Token的值。假设Token值为10,一句话可能被切为两个断句,分别进行推理。
- 测试效果:观察效果,根据实际需求进行优化,确保语句通顺连贯的同时,避免显存占用过高。
音色融合功能
什么是音色融合?
音色融合允许用户选择不同的音色并调整融合的权重,以生成更加自然和个性化的语音输出。
使用步骤:
- 选择音色:选择不同的音色,比如“团长的声音”或“业内法的声音”。
- 设置音色权重:通过权重设置,可以调整不同音色在生成语音中的占比。
- 保存音色设置:如不需要音色融合,可以选择关闭融合功能。
字幕同步功能
如何添加字幕同步?
CosyVoice的新版本支持将语音合成和字幕同步进行输出,方便直接用于视频剪辑。
添加步骤:
- 生成音频和字幕文件:在CosyVoice的音色输出目录,保存生成的音频文件和同步的字幕文件。
- 拖拽到剪辑软件:将生成的文件直接拖拽到任意视频剪辑软件中使用。
新版本的长文本稳定性测试
针对超长文本的稳定性,官方进行了大量测试。这里的输入文本不仅涉及长句,且需要具备上下文逻辑,避免文本生成中的语句不连贯性。