AI音乐生成新突破:腾讯LeVo开源,高保真创作引领潮流

AI前沿5小时前发布 yizz
1,733 0 0
广告也精彩

腾讯AI Lab开源高保真音乐生成模型LeVo:引领音乐创作新纪元

1. 为什么需要LeVo?现有音乐生成模型面临哪些挑战?

近年来,大型语言模型(LLMs)语音模型在音乐生成领域取得了显著进展,尤其是在歌词到歌曲的生成方面。然而,现有方法仍然面临以下挑战,导致音质、音乐性、指令遵循以及人声-乐器和谐方面的局限性:

  • 歌曲的复杂结构难以建模:音乐作品往往具有复杂的结构和多变的元素,现有模型难以准确捕捉和还原这些细节。
  • 高质量数据稀缺:高质量的音乐数据集相对稀少,限制了模型训练的效果和生成音乐的质量。
  • 音质和音乐性不足:生成的音乐在音质和音乐性方面与专业作品相比仍有差距。
  • 指令遵循能力有限:模型难以准确理解和执行用户指令,例如风格、情感等方面的要求。
  • 人声和乐器配合不协调:在包含人声的音乐生成中,人声和乐器之间的配合往往不够自然和谐。

2. LeVo是如何解决这些问题的?LeVo的核心功能是什么?

为了解决上述挑战,腾讯AI Lab推出了LeVo,一个基于LM的框架,由LeLM音乐编解码器组成。LeVo通过以下核心功能实现高保真音乐生成:

  • LeLM并行建模混合标记和双轨标记
    • 混合标记:代表人声和伴奏的混合音频,用于实现人声-乐器和谐
    • 双轨标记:分别编码人声和伴奏,用于高质量歌曲生成
    • LeLM采用两个仅解码器的Transformer和一个模块化扩展训练策略,以防止不同标记类型之间的干扰。
  • 基于直接偏好优化(DPO)的多偏好对齐方法
    • 通过半自动数据构建过程DPO微调处理多样化的用户偏好,增强音乐性和指令遵循能力。
  • 高保真歌曲生成:支持中英文歌词,生成48kHz立体声音频,音质媲美Suno等闭源模型。
  • 零样本风格迁移:根据参考音频提取风格、节奏、音色,生成类似歌曲。例如,你可以给LeVo一段爵士乐的音频,让它生成一段类似风格的摇滚乐。
  • 文本控制生成:通过描述(如“男声、悲伤、流行、钢琴/鼓”)控制歌曲风格和情感。你可以输入“女声、欢快、电子、合成器”,来生成一段符合你要求的音乐。
  • 双轨建模:支持混合令牌(人声+伴奏)双轨令牌(分开编码人声和伴奏),确保人声-乐器和谐。
  • 模块化训练:使用双解码器Transformer模块化扩展训练策略,避免令牌干扰。

3. 如何快速部署和使用LeVo?

3.1 在线体验

如果你想快速体验LeVo的功能,可以直接访问官方部署好的Hugging Face应用空间进行试用。

3.2 本地部署

如果你有本地部署的需求,可以按照以下步骤进行:

  • 环境要求
    • Python>=3.8.12
    • CUDA>=11.8
  • 部署步骤
    1. 克隆项目
      bash
      git clone https://github.com/tencent-ailab/SongGeneration.git

    2. 安装依赖
      bash
      pip install -r requirements.txt –no-deps
      pip install https://github.com/Dao-AILab/flash-attention/releases/download/v2.6.3/flash_attn-2.6.3+cu118torch2.2cxx11abiFALSE-cp310-cp310-linux_x86_64.whl

    3. Docker部署(可选):
      bash
      docker pull juhayna/song-generation-levo:v0.1
      docker run -it –gpus all –network=host juhayna/song-generation-levo:v0.1 /bin/bash

    4. ComfyUI工作流(可选):

  • 输入格式
    • LeVo对输入格式有严格的要求,请参考sample/lyrics.jsonl示例文件和项目文档进行操作。

4. LeVo有哪些适用场景?

LeVo的高保真和灵活控制使其适用于多种场景:

  • 短视频BGM:生成流行/爵士背景音乐,适配抖音、YouTube等平台。例如,为你的旅行Vlog生成一段轻快的背景音乐。
  • 歌曲Demo:快速生成中英文歌曲草稿,供音乐人试水创意。音乐人可以快速验证自己的创作想法。
  • 游戏音效:为RPG游戏生成“悲伤钢琴”主题曲。为游戏场景定制专属音乐。
  • 播客配乐:定制“温暖男声”开场曲,提升播客氛围。让你的播客更具吸引力。
  • 风格实验:用参考音频迁移爵士到摇滚,探索新流派。可以尝试各种音乐风格的融合。

5. LeVo的开源意味着什么?

LeVo的开源代码和权重降低了音乐生成门槛,为更多音乐数据训练提供了进一步研究的基础。双轨建模和DPO优化确保高保真输出,零样本风格迁移满足多样化创作需求。

相信腾讯AI Lab未来会对LeVo进行更深入的优化,例如:更长音乐生成、更多语言扩展、实时生成等方面。

国产大模型(多模态、语音、音乐等)正在一步步走向世界,国产AI也必将走向全世界!

GitHub 项目地址https://github.com/tencent-ailab/songgeneration/

HF 体验地址https://huggingface.co/spaces/tencent/SongGeneration

我认为:LeVo的开源,犹如投向音乐创作领域的一颗石子,激起的涟漪将不断扩大。这不仅降低了创作的门槛,也为未来的音乐创作模式带来了更多可能性。然而,技术的发展也应关注伦理问题,避免滥用和侵权,让AI真正成为人类创作的助手,而非替代品。

,,, Lab,,

© 版权声明
chatgpt4.0

相关文章

error: Content is protected !!