深入评估11Labs的AI音效技术:AI能否终结短片的无声时代?

Sora7个月前发布 wanglu852
11,102 0 0
广告也精彩

Sora的文字转视频功能正引发AI界的热议,众多关注者正翘首以盼OpenAI的Sora正式推出。每次Sora发布的演示视频都能迅速获得广泛的传播和关注!

随着AI技术从文字创作到图像生成,再到现在的视频制作,似乎预示着一个全面的AI时代即将到来。同时,”音效”这一元素也日益受到重视,成为新的焦点。 随着AI技术从文字创作到图像生成,再到现在的视频制作,似乎预示着一个全面的AI时代即将到来。同时,”音效”这一元素也日益受到重视,成为新的焦点。

深入评估11Labs的AI音效技术:AI能否终结短片的无声时代?

2 月 18 号 ElevenLabs 发布半自动 AI 音效的效果视频,让 Sora 宇宙出现了“声音”
2 月 27 日 **Pika(AI 视频制作平台)推出声音唇部同步功能 Lip Sync
**3 月 10 日
Pika 集成 AI 音效功能

深入评估11Labs的AI音效技术:AI能否终结短片的无声时代?

当我准备付费尝试Pika的音效功能,体验一下“赛博煎培根🥓”的独特感受时,ElevenLabs给了我一个惊喜的内测机会,他们推出了一个新功能——“音效效果”。

深入评估11Labs的AI音效技术:AI能否终结短片的无声时代?
由于11Labs之前支持的Pika的唇形同步技术,我不禁猜测,我刚刚获得的内测资格中的“Sound effects”功能,可能就是Pika背后的技术支持。

我立刻想到要将Sora最新发布的视频全部配上音效,并结合Apple Vision Pro来体验一场视听盛宴。

Sora 3 月份 最新视频效果:

“A dragon made of bubbles, perfectly rendered 8k.”
一条由气泡制成的龙,完美渲染 8k,视频由图片代替。

深入评估11Labs的AI音效技术:AI能否终结短片的无声时代?

“A dragon made of bubbles, perfectly rendered 8k.”
一只透明的景观乌龟在沙滩爬行,视频由图片代替。
深入评估11Labs的AI音效技术:AI能否终结短片的无声时代?

an alien blending in naturally with new york city, paranoia thriller style, 35mm film
一个与纽约市自然融合的外星人,偏执惊悚风格,35 毫米电影。视频由图片代替

深入评估11Labs的AI音效技术:AI能否终结短片的无声时代?

看完视频之后,是非常震感的,脑洞大开的想法真的很惊喜,Sora生成的视频画面如此逼真,几乎无法察觉到AI的制作痕迹,视频中展现的内容更是充满想象力和创意!

然而,缺乏音效仍让人感觉视频体验不够完整。

现在,就让我带领大家先行体验AI音效带来的神奇魔力吧!这是ElevenLabs Sound Effects 的界面,很干净。只有一个提示框,那应该就是需要输入提示词,根据提示词生成音效。

深入评估11Labs的AI音效技术:AI能否终结短片的无声时代?

初次体验ElevenLabs的音效生成界面,我发现了一个仅供输入提示词的框,但没有提供使用指南。显然,这个界面是为了根据用户输入的提示词来生成音效而设计的。

🐒 缺乏指导?不用担心,Pika平台上有丰富的教程可供参考。

不同于ElevenLabs,Pika允许用户先上传视频或图片,然后根据生成的描述来创造音效,或者在视频生成过程中使用相同的提示词来同步生成音效。

为了给Sora最新发布的“梦幻泡泡喷火龙”视频增添音效,我决定利用ElevenLabs的音效功能进行个性化定制。

在ElevenLabs音效的深度测试中,我首先简单地复用了Sora视频的原始提示:
A dragon made of bubbles, perfectly rendered 8k.
“一只由泡泡构成的喷火龙,以8K高清渲染。”
深入评估11Labs的AI音效技术:AI能否终结短片的无声时代?

几秒后,系统生成了五个与泡泡相关的音效,但它们的长度都较短,不太适合视频使用。我推测,可能需要像Midjourney v5之前的提示风格那样,使用更多代表音效的词汇来描述。
深入评估11Labs的AI音效技术:AI能否终结短片的无声时代?
深入评估11Labs的AI音效技术:AI能否终结短片的无声时代?
我尝试增加提示词的长度,希望这样能延长音效的时长。这次,音效确实变长了,声音也更清晰,但仍不符合预期。

经过几次尝试,我决定改变策略,更精确地描述我想要的音效,而不是仅仅描述视频画面。这个新方法取得了更好的效果。
深入评估11Labs的AI音效技术:AI能否终结短片的无声时代?
深入评估11Labs的AI音效技术:AI能否终结短片的无声时代?

根据这一逻辑,我手动创建了一个GPTs提示,以帮助更准确地生成音效。保留核心内容并去除不必要的物体描述后,音效不仅有效延长,还成功复现了吹泡泡的感觉。视频省略,暂用图片展示。

接下来,我尝试在一段提示语中结合不同画面的音效描述,以一次性生成整个视频的音效。例如:
“轻柔的沙沙声,微妙的贝壳运动,柔和的海风,翻滚的海浪低语,远处的鸟叫声。” 这里是在之前视频的基础上加上鸟叫的声音,更贴切更自然。视频省略,暂用图片展示。
深入评估11Labs的AI音效技术:AI能否终结短片的无声时代?

虽然目前音效生成的可用性还有待提高,一次生成的音效可能有几条不可用,但分开针对每个画面来生成音效确实更方便调整。这段20秒的视频被分成五个不同的音效部分来合成。

通过这些音效,我重新诠释了视频的听觉体验:

-城市背景噪音:汽车喇叭声、人群喧嚣、地铁轰鸣、行人脚步声。

– 无声的脚步声,橡胶摩擦声。

– 电子嗡嗡声、低频震动声、衣物沙沙声。

– 加速的心跳,紧张的气氛。

– 警笛声、消防车喇叭声、直升机轰鸣声。

– 城市背景噪音:汽车喇叭声、人群喧嚣、地铁轰鸣、行人脚步声。

– 无声的脚步声,橡胶摩擦声。

– 电子嗡嗡声、低频震动声、衣物沙沙声。

– 加速的心跳,紧张的气氛。

– 警笛声、消防车喇叭声、直升机轰鸣声。

注:如果AI音效能生成与视频时间长度相匹配的音效就完美了,目前这还是一种“抽奖”状态。

总结而言,AI视频正在逐步完善其功能,从图像生成视频,到文字生成视频、音乐,再到文字生成音效。

我相信,正如我们之前所见的AI产品一样,这些功能将以极快的速度进行优化和整合,成为AI视频工作流的一部分。届时,我们将真正实现“一键”生成AI视频。

(由于限制,视频无法上传,详细教程可以联系微信: chatgptAIzm)

最后,感谢您的阅读。想要第一时间接收我们的推送,可以星标⭐我们。如果您喜欢这篇文章,请不吝点赞、在看、转发,您的支持是我们更新的最大动力!

如果您希望参与讨论或建立合作,请加我为好友,让我们共同探索AI的无限可能!

© 版权声明
chatgpt4.0

相关文章

error: Content is protected !!