AI音乐爆款之路：Suno破局，数字IP崛起，能否摆脱电子垃圾之名？

7,834 0 0

AI音乐与数字IP：从即梦OmniHuman-1 MV说起

为什么我对AI音乐MV感兴趣？

在上一篇关于即梦OmniHuman-1的测试文章发布后，很多朋友对数字人技术表现出了浓厚的兴趣，甚至有人想要完整版的主题曲。因此，我制作了一个全新的MV，呈现了这首3分30秒的完整版歌曲，并命名为POP25。这支由AI写唱的歌曲开始受到大家的喜爱，我觉得这是一件很有意思的事情。

AI音乐MV的尝试与进化

其实，早在去年的AI.TALK节目上，我们就已经尝试过几次AI音乐MV，但当时的效果并不理想，主要原因是技术还不够成熟。

那么，音乐和动画应该分开来看吗？

我认为大可不必。从影响媒介传播的时代开始，音乐和影视就密不可分。经典的MV，在某种意义上与音乐就是一体的。黑胶唱片的封面设计也是唱片行业的重要组成部分，音乐不仅仅是声音维度的艺术，它和影像甚至文字都息息相关。

AI音乐的现状与挑战

之前我们对AI音乐的顾虑主要集中在两个方面：

音乐本身的生成素质不行：之前的AI音乐生成工具，生成的音乐质量确实难以让人满意。
AI动画在人物演唱领域的情绪表达存在短板：大部分数字人技术只是把词“念”出来，缺乏生动性和感染力。

但现在情况似乎有了一些变化。

Suno：被低估的AI音乐创作工具

我认为 Suno 应该引起更高的关注。用AI创作音乐绝对是一个很有看头的事情。但很多朋友对AI音乐的第一印象还停留在去年前年那种声音皮肤的置换上（比如孙燕姿唱周杰伦的歌），而非创作本身。

AI音乐真的是电子垃圾吗？

这可能是一个有争议的话题。在很多人的逻辑里，AI产生的东西就是电子垃圾，缺乏“人味儿”。诚然，目前的很多AIGC都存在这个问题，但以当前的技术进度就给一个潜在产业下结论，多少有些不公平。而且，关于AI无法创造好音乐这种论断，无论从哪个角度讲，我都觉得逻辑很难成立。

AI音乐的质量提升

如果你今天打开Suno的首页，听一些V4的歌曲，其实很多并不难听。在西方音乐的分类下，甚至有些作品完成度已经很高了。当然，你别指望它们和顶级音乐人旗鼓相当（我认为永远不会），但相比数量上大部分的平庸作品，AI的产出质量绝不算差。

为什么高质量的AI音乐没有爆款？

我认为有两个原因：

音乐产业不缺乏内容供给：大量的碳基人作品都听不过来，根本是供大于求。
音乐往往不是被单独欣赏的：在抖音里看视频听音乐，视频很重要；喜欢Taylor的音乐，也喜欢这个音乐人本身，包括她的形象、性格、甚至八卦。这些综合的“内容”构成了听音乐的某种语境。所以，只有AI的歌曲可能是不够的，加速社会让人们单独欣赏音乐的时间捉襟见肘。一首歌的火爆，往往和一些“其他事情”相关，比如某个Meme，某个番剧，某个娱乐八卦。

AI视频的挑战与机遇

在供需关系的问题上，AI视频的处境和AI音乐是一样的，甚至更可怜。用户只关心AI视频是不是比真人拍的更好看。

我们折腾AI视频到底图个啥？

这是一个巨大的话题。每次我遇到对AI视频特别乐观，觉得AI视频能拯救世界的朋友，都由衷的羡慕。

数字音乐IP资产建设成本的降低

关于视觉化的音乐内容，即梦这次的OmniHuman-1应该是个小突破。虽然它现在还不完美，比如情绪的发力过猛，比如乐器不能准确弹奏。但这些“现在的问题”可以适度忽略，要相信AI的发展速度。

现在至少数字人有表情了，能听懂音乐了，一致性的解决方案越来越多了，趋势才是关键，很多问题其实花点精力就能解决。比如这次我们试着解决歌手一致性的问题，整个制作只花了两天。

AI工具的整体发展速度很快

目前来看，并不是单一工具的进化，而是作为工具集整体的发展速度很快。比如VEO2的评测还没做完，惊喜不断。再比如这次MV里涉及到分镜动画时可灵和海螺的表现，真的很好。近期我们的视线被DeepSeek等语言模型占据的比较多，但AI视频模型也跑得很快。

建立音乐数字IP的成本大幅下降

以我自己和团队半年的实践，建立一个音乐数字IP的成本在大幅下降。之后应该还是会回到音乐本身，就像电影最重要回到故事本身一样。

AI音乐的未来：好听但还不够好听

AI写歌和AI视频有个区别：就是人工能干预的成分并不多。用AI做电影，我可以精控图片再图生视频，写歌就很难进行这种干预。而Suno这半年上的几个高级功能又非常拉垮。

如何创作AI音乐？

目前基本上就是写好Prompts开始烧香。结构写写，主歌副歌写写，有时加个节拍数进去，发现就是自己骗自己，和你在 Midjourney里写个8K没区别。而在编曲的复杂度和可控性上，也差得有点远。比如你在Prompts里加上乐器：电吉他、贝斯、架子鼓、再写第四个它肯定开始胡编了。

AI音乐的价值：洗脑与陪伴

我真的开始会循环播放AI音乐的列表。不是说这些音乐有多出色，而是我发现它们很适合洗脑。AI音乐几乎是建立在学习讨好人类这个原则之上的，它可以快速生成那种“好听感”的歌，这比之前有明显的进步。只不过是那种你听完和没听一样，啥也想不起来的作品。

谁说这就不是价值呢？

不是每个人都有动力主动筛选音乐，这和看文章看电影一样，是个信息修养的问题。

AI时代的音乐分化

Paul Grahma认为之后的世界，写作会变成稀缺技能，世界会分化成两类人：有写作能力的，和完全不会写的（AI替代）。我感觉音乐也存在分化问题：分为“打发时间”的和“精品”的这两类，中间地带会很难生存。精品留给那些有才华的音乐人，AI也许能辅助他们创作，但绝非替代。而打发时间的音乐似乎是AI能去争取的。

AI音乐的优势

反正就是听个背景音，AI量大管饱还极尽谄媚，干嘛不听呢。没准还能模仿我男神女神的嗓音，这不王炸吗。况且我平时在抖音上刷到的歌，可能真还没AI写的好听。

总结与展望

AI的音乐资产足够有趣，这几个月相关的技术都在变好，但都还不够好。但足够值得尝试了。盼着Suno们争点气，还是好好弄模型，别老上一些鸡肋功能。相比之下，近期AI视频一波模型小爆发还是挺让人开心的，虽然没有LLM那么热闹，但真正使用的人还是能体会到极大的飞跃。加速在继续。

我是汗青，AI.TALK创始人，一个6岁开始学美术的AI创作者，也是厮混互联网圈16年的产品经理。我在这里分享对AI技术与媒介的思考。我的愿景是寻找新技术与媒介艺术的结合方式。

感悟

我认为：这文章，如同深夜食堂里的一碗泡面，裹挟着AI浪潮下创作者的焦虑与期待。汗青嬉笑怒骂间，道出了AI音乐与视频的尴尬现状：技术进步神速，但爆款难觅，如同镜中花水中月，看似触手可及，实则遥不可及。然而，字里行间又透露着对未来的憧憬，如同泡面里那颗溏心蛋，带来一丝温暖与希望。AI并非洪水猛兽，而是创作者的利器，关键在于如何驾驭，如同鲁迅先生手中的笔，既能批判黑暗，也能描绘光明。,,,