OpenAI发布声音克隆技术:Voice Engine15秒音频样本,创建自定义声音

AI前沿3个月前更新 wanglu852
1,929 0 0
广告也精彩

概述

Voice Engine是OpenAI推出的一项创新AI技术,专注于语音合成和声音克隆。这项技术能够通过一个简短的15秒音频样本和文本输入,生成与原始说话者非常相似的自然听起来的语音。自从2022年底开发以来,Voice Engine已经被应用于OpenAI的文本到语音API和ChatGPT的语音功能中,展现出其广泛的应用前景和潜在的社会影响。

官方网址:https://openai.com/blog/navigating-the-challenges-and-opportunities-of-synthetic-voices

OpenAI发布声音克隆技术:Voice Engine15秒音频样本,创建自定义声音

技术特点

  • 高效的声音克隆:Voice Engine能够利用极短的音频样本,生成富有感情和逼真的声音,为失语者“重获声音”提供了可能性。
  • 多样化的应用场景:从教育阅读辅助到全球内容翻译,从改善偏远地区的基本服务到支持言语残障人士,Voice Engine的应用范围广泛。
  • 安全性与道德考量:OpenAI对Voice Engine的发布持谨慎态度,采取了严格的使用政策和安全措施,如水印追踪和主动监控,以防止滥用并确保技术的负责任使用。

应用案例

  • 教育与阅读辅助:教育技术公司Age of Learning使用Voice Engine生成预设脚本的语音内容,并与GPT-4结合,创造实时、个性化的互动响应,提高学生的学习体验。
  • 内容翻译与全球化:AI视觉叙事平台HeyGen使用Voice Engine进行视频翻译,使其内容能够跨越语言障碍,触及更广泛的受众。
  • 改善偏远地区的服务提供:Dimagi公司开发的工具使用Voice Engine和GPT-4为社区卫生工作者提供互动反馈,帮助他们提高技能。
  • 支持言语残障人士:Livox公司利用Voice Engine为有交流障碍的个体提供独特且非机械性的声音,使他们能够通过增强和替代通讯(AAC)设备进行交流。
  • 恢复患者的声音:Norman Prince Neurosciences Institute正在探索如何使用Voice Engine帮助因肿瘤或神经原因导致语言障碍的个体。

未来展望

目前,Voice Engine仍处于小规模预览阶段,OpenAI正在与一小部分可信赖的合作伙伴进行私下测试。根据测试结果和社会发展的需要,OpenAI将决定是否将Voice Engine提供给更广泛的用户群体。这项技术的发展和应用将继续受到社会各界的密切关注,其未来的发展无疑将为语音技术领域带来新的突破和挑战。

© 版权声明
chatgpt4.0

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...
error: Content is protected !!