开源TTS新星：Chatterbox模型，情绪控制媲美ElevenLabs？语音合成迎来新突破！

Chatterbox：史上最真实的开源语音合成模型，媲美 ElevenLabs？

什么是 Chatterbox？它为什么这么火？

近年来，文本转语音（TTS）技术发展迅猛，但要达到媲美真人的效果，尤其是在情感表达和实时性方面，仍然面临巨大挑战。不过，随着零样本TTS和情感控制技术的兴起，涌现出一批优秀的TTS模型，为语音合成带来了新的突破。

最近，一款名为 Chatterbox 的开源TTS模型横空出世，短短两天内便登上 GitHub 热榜，星标数迅速突破3K，成为开源TTS领域的一颗耀眼新星。

截至本文撰写时，Chatterbox 在 GitHub 上已获得3.2K+ Star，是近年来增长最快的开源TTS模型之一。

Chatterbox 到底有什么特别之处？

Chatterbox 是 Resemble AI 推出的首个生产级开源TTS模型，也是首个支持情感夸张控制的开源TTS模型。它具备以下核心功能亮点：

情绪夸张控制：可以调节语音的表现力，让语音更具感染力，尤其适合戏剧性语音生成。
零样本语音克隆：只需 5 秒的参考音频，即可克隆目标声音，无需额外训练，非常方便快捷。
超低延迟：推理延迟低于200ms，非常适合实时对话应用，例如虚拟助手。
PerTh神经水印：隐秘地嵌入内容标记，提高安全性和可追溯性，防止被滥用。
轻量高效：仅有 0.5B 参数，在配备 24GB 显卡的设备上即可运行（推荐配置）。
盲测力压 ElevenLabs：在语音自然度和情感表现方面，超越了闭源标杆 ElevenLabs。

Chatterbox 如何安装和使用？

Chatterbox 的安装非常简单，官方将其打包为一个Python包，可以通过 pip 命令直接安装：

bash
pip install chatterbox-tts

安装完成后，只需三行代码即可体验超真实的语音生成效果：

python
import torchaudio as ta
from chatterbox.tts import ChatterboxTTS

model = ChatterboxTTS.from_pretrained(device=”cuda”)
text =”Ezreal and Jinx teamed up with Ahri, Yasuo, and Teemo to take down the enemy’s Nexus in an epic late-game pentakill.”
wav = model.generate(text)
ta.save(“test-1.wav”, wav, model.sr)

如果你想使用不同的声音进行合成，请指定音频提示

AUDIO_PROMPT_PATH=”YOUR_FILE.wav”
wav = model.generate(text, audio_prompt_path=AUDIO_PROMPT_PATH)
ta.save(“test-2.wav”, wav, model.sr)

此外，Chatterbox 在 HuggingFace 上也部署了在线 Demo，感兴趣的小伙伴可以前往体验。

Tips：

默认设置（exaggeration=0.5, cfg_weight=0.5）适合大多数场景。
如果需要快速语音，可以尝试 cfg_weight=0.3。
如果需要戏剧化场景，可以尝试 exaggeration=0.7。

Chatterbox 适用于哪些场景？

凭借其情感控制和低延迟特性，Chatterbox 适用于多种场景：

播客与短视频：生成生动的配音，通过情绪夸张控制让内容更具吸引力，节省专业配音成本。比如，你可以用它给你的游戏解说视频配音，让你的视频更具趣味性。
游戏开发：为NPC生成多样化的语音，甚至可以克隆玩家的声音，增强游戏的沉浸感。想象一下，在游戏中听到自己声音的NPC，是不是感觉很酷？
虚拟助手：凭借超低延迟，可以实现实时对话，打造自然流畅的AI客服。以后和AI客服交流，就像和真人聊天一样。
教育内容：生成多语言教学音频，通过情绪控制让讲解更生动，更适合在线课程。让枯燥的知识变得有趣，提高学习效率。
戏剧化场景：通过较高的 exaggeration 值生成夸张的语音，非常适合动画、广告和配音表演。比如，你可以用它来制作搞笑的短剧配音。