开源TTS新星:Chatterbox模型,情绪控制媲美ElevenLabs?语音合成迎来新突破!

AI前言2天前发布 yizz
3,100 0 0
广告也精彩

Chatterbox:史上最真实的开源语音合成模型,媲美 ElevenLabs?

什么是 Chatterbox?它为什么这么火?

近年来,文本转语音(TTS技术发展迅猛,但要达到媲美真人的效果,尤其是在情感表达实时性方面,仍然面临巨大挑战。不过,随着零样本TTS情感控制技术的兴起,涌现出一批优秀的TTS模型,为语音合成带来了新的突破。

最近,一款名为 Chatterbox 的开源TTS模型横空出世,短短两天内便登上 GitHub 热榜,星标数迅速突破3K,成为开源TTS领域的一颗耀眼新星。

开源TTS新星:Chatterbox模型,情绪控制媲美ElevenLabs?语音合成迎来新突破!

截至本文撰写时,Chatterbox 在 GitHub 上已获得3.2K+ Star,是近年来增长最快的开源TTS模型之一。

开源TTS新星:Chatterbox模型,情绪控制媲美ElevenLabs?语音合成迎来新突破!

Chatterbox 到底有什么特别之处?

Chatterbox 是 Resemble AI 推出的首个生产级开源TTS模型,也是首个支持情感夸张控制的开源TTS模型。它具备以下核心功能亮点:

  • 情绪夸张控制:可以调节语音的表现力,让语音更具感染力,尤其适合戏剧性语音生成
  • 零样本语音克隆:只需 5 秒的参考音频,即可克隆目标声音,无需额外训练,非常方便快捷。
  • 超低延迟:推理延迟低于200ms,非常适合实时对话应用,例如虚拟助手
  • PerTh神经水印:隐秘地嵌入内容标记,提高安全性可追溯性,防止被滥用。
  • 轻量高效:仅有 0.5B 参数,在配备 24GB 显卡的设备上即可运行(推荐配置)。
  • 盲测力压 ElevenLabs:在语音自然度和情感表现方面,超越了闭源标杆 ElevenLabs。

Chatterbox 如何安装和使用?

Chatterbox 的安装非常简单,官方将其打包为一个Python包,可以通过 pip 命令直接安装:

bash
pip install chatterbox-tts

安装完成后,只需三行代码即可体验超真实的语音生成效果:

python
import torchaudio as ta
from chatterbox.tts import ChatterboxTTS

model = ChatterboxTTS.from_pretrained(device=”cuda”)
text =”Ezreal and Jinx teamed up with Ahri, Yasuo, and Teemo to take down the enemy’s Nexus in an epic late-game pentakill.”
wav = model.generate(text)
ta.save(“test-1.wav”, wav, model.sr)

如果你想使用不同的声音进行合成,请指定音频提示

AUDIO_PROMPT_PATH=”YOUR_FILE.wav”
wav = model.generate(text, audio_prompt_path=AUDIO_PROMPT_PATH)
ta.save(“test-2.wav”, wav, model.sr)

此外,Chatterbox 在 HuggingFace 上也部署了在线 Demo,感兴趣的小伙伴可以前往体验。

Tips

  • 默认设置(exaggeration=0.5, cfg_weight=0.5)适合大多数场景。
  • 如果需要快速语音,可以尝试 cfg_weight=0.3
  • 如果需要戏剧化场景,可以尝试 exaggeration=0.7

Chatterbox 适用于哪些场景?

凭借其情感控制低延迟特性,Chatterbox 适用于多种场景:

  • 播客与短视频:生成生动的配音,通过情绪夸张控制让内容更具吸引力,节省专业配音成本。比如,你可以用它给你的游戏解说视频配音,让你的视频更具趣味性。
  • 游戏开发:为NPC生成多样化的语音,甚至可以克隆玩家的声音,增强游戏的沉浸感。想象一下,在游戏中听到自己声音的NPC,是不是感觉很酷?
  • 虚拟助手:凭借超低延迟,可以实现实时对话,打造自然流畅的AI客服。以后和AI客服交流,就像和真人聊天一样。
  • 教育内容:生成多语言教学音频,通过情绪控制让讲解更生动,更适合在线课程。让枯燥的知识变得有趣,提高学习效率。
  • 戏剧化场景:通过较高的 exaggeration 值生成夸张的语音,非常适合动画、广告和配音表演。比如,你可以用它来制作搞笑的短剧配音。

总结

Chatterbox 作为一款开源TTS模型,凭借其情绪夸张控制零样本语音克隆超低延迟等特性,在语音合成领域取得了显著的突破。它的出现,为内容创作者、游戏开发者和AI应用开发者带来了更多的可能性。

Resemble AI 计划在未来继续优化模型效率,增加多语言支持和更细粒度的情绪控制,让我们拭目以待。

GitHub 项目地址:https://github.com/resemble-ai/chatterbox

HF 在线体验:https://huggingface.co/spaces/ResembleAI/Chatterbox

开源TTS新星:Chatterbox模型,情绪控制媲美ElevenLabs?语音合成迎来新突破!

我认为:

Chatterbox 的出现,无疑给开源TTS领域注入了一剂强心针。它不仅在技术上取得了突破,更重要的是,它代表了一种开放、共享的精神。然而,在享受技术带来的便利的同时,我们也应警惕AI技术可能带来的风险,例如声音克隆的滥用。因此,加强AI伦理和监管,显得尤为重要。

,,,,,,

© 版权声明
chatgpt4.0

相关文章

error: Content is protected !!