Sora的文字转视频功能正引发AI界的热议,众多关注者正翘首以盼OpenAI的Sora正式推出。每次Sora发布的演示视频都能迅速获得广泛的传播和关注!
随着AI技术从文字创作到图像生成,再到现在的视频制作,似乎预示着一个全面的AI时代即将到来。同时,”音效”这一元素也日益受到重视,成为新的焦点。 随着AI技术从文字创作到图像生成,再到现在的视频制作,似乎预示着一个全面的AI时代即将到来。同时,”音效”这一元素也日益受到重视,成为新的焦点。
2 月 18 号 ElevenLabs 发布半自动 AI 音效的效果视频,让 Sora 宇宙出现了“声音”
2 月 27 日 **Pika(AI 视频制作平台)推出声音唇部同步功能 Lip Sync
**3 月 10 日 Pika 集成 AI 音效功能
当我准备付费尝试Pika的音效功能,体验一下“赛博煎培根🥓”的独特感受时,ElevenLabs给了我一个惊喜的内测机会,他们推出了一个新功能——“音效效果”。
由于11Labs之前支持的Pika的唇形同步技术,我不禁猜测,我刚刚获得的内测资格中的“Sound effects”功能,可能就是Pika背后的技术支持。
我立刻想到要将Sora最新发布的视频全部配上音效,并结合Apple Vision Pro来体验一场视听盛宴。
Sora 3 月份 最新视频效果:
“A dragon made of bubbles, perfectly rendered 8k.”
一条由气泡制成的龙,完美渲染 8k,视频由图片代替。
“A dragon made of bubbles, perfectly rendered 8k.”
一只透明的景观乌龟在沙滩爬行,视频由图片代替。
an alien blending in naturally with new york city, paranoia thriller style, 35mm film
一个与纽约市自然融合的外星人,偏执惊悚风格,35 毫米电影。视频由图片代替
看完视频之后,是非常震感的,脑洞大开的想法真的很惊喜,Sora生成的视频画面如此逼真,几乎无法察觉到AI的制作痕迹,视频中展现的内容更是充满想象力和创意!
然而,缺乏音效仍让人感觉视频体验不够完整。
现在,就让我带领大家先行体验AI音效带来的神奇魔力吧!这是ElevenLabs Sound Effects 的界面,很干净。只有一个提示框,那应该就是需要输入提示词,根据提示词生成音效。
初次体验ElevenLabs的音效生成界面,我发现了一个仅供输入提示词的框,但没有提供使用指南。显然,这个界面是为了根据用户输入的提示词来生成音效而设计的。
🐒 缺乏指导?不用担心,Pika平台上有丰富的教程可供参考。
不同于ElevenLabs,Pika允许用户先上传视频或图片,然后根据生成的描述来创造音效,或者在视频生成过程中使用相同的提示词来同步生成音效。
为了给Sora最新发布的“梦幻泡泡喷火龙”视频增添音效,我决定利用ElevenLabs的音效功能进行个性化定制。
在ElevenLabs音效的深度测试中,我首先简单地复用了Sora视频的原始提示:
A dragon made of bubbles, perfectly rendered 8k.
“一只由泡泡构成的喷火龙,以8K高清渲染。”
几秒后,系统生成了五个与泡泡相关的音效,但它们的长度都较短,不太适合视频使用。我推测,可能需要像Midjourney v5之前的提示风格那样,使用更多代表音效的词汇来描述。
我尝试增加提示词的长度,希望这样能延长音效的时长。这次,音效确实变长了,声音也更清晰,但仍不符合预期。
经过几次尝试,我决定改变策略,更精确地描述我想要的音效,而不是仅仅描述视频画面。这个新方法取得了更好的效果。
根据这一逻辑,我手动创建了一个GPTs提示,以帮助更准确地生成音效。保留核心内容并去除不必要的物体描述后,音效不仅有效延长,还成功复现了吹泡泡的感觉。视频省略,暂用图片展示。
接下来,我尝试在一段提示语中结合不同画面的音效描述,以一次性生成整个视频的音效。例如:
“轻柔的沙沙声,微妙的贝壳运动,柔和的海风,翻滚的海浪低语,远处的鸟叫声。” 这里是在之前视频的基础上加上鸟叫的声音,更贴切更自然。视频省略,暂用图片展示。
虽然目前音效生成的可用性还有待提高,一次生成的音效可能有几条不可用,但分开针对每个画面来生成音效确实更方便调整。这段20秒的视频被分成五个不同的音效部分来合成。
通过这些音效,我重新诠释了视频的听觉体验:
-城市背景噪音:汽车喇叭声、人群喧嚣、地铁轰鸣、行人脚步声。
– 无声的脚步声,橡胶摩擦声。
– 电子嗡嗡声、低频震动声、衣物沙沙声。
– 加速的心跳,紧张的气氛。
– 警笛声、消防车喇叭声、直升机轰鸣声。
– 城市背景噪音:汽车喇叭声、人群喧嚣、地铁轰鸣、行人脚步声。
– 无声的脚步声,橡胶摩擦声。
– 电子嗡嗡声、低频震动声、衣物沙沙声。
– 加速的心跳,紧张的气氛。
– 警笛声、消防车喇叭声、直升机轰鸣声。
注:如果AI音效能生成与视频时间长度相匹配的音效就完美了,目前这还是一种“抽奖”状态。
总结而言,AI视频正在逐步完善其功能,从图像生成视频,到文字生成视频、音乐,再到文字生成音效。
我相信,正如我们之前所见的AI产品一样,这些功能将以极快的速度进行优化和整合,成为AI视频工作流的一部分。届时,我们将真正实现“一键”生成AI视频。
(由于限制,视频无法上传,详细教程可以联系微信: chatgptAIzm)
最后,感谢您的阅读。想要第一时间接收我们的推送,可以星标⭐我们。如果您喜欢这篇文章,请不吝点赞、在看、转发,您的支持是我们更新的最大动力!
如果您希望参与讨论或建立合作,请加我为好友,让我们共同探索AI的无限可能!