谷歌Veo3 & FLOW:AI视频创作新纪元?特性、测试与教程全解析
Veo3有多强?它将如何改变视频模型时代?
谷歌最新发布的视频模型Veo3和AI视频创作产品FLOW,无疑在AI视频领域掀起了一股新的浪潮。Veo3最引人注目的特性在于,它能够同步生成视频对应的环境音和语音,并支持唇形同步。FLOW则集成了图片和视频生成、视频延长和剪辑等功能,为用户提供了一站式的视频创作体验。
Veo3的核心优势:
- 逼真的音效和语音: Veo3生成的视频,音效精准,语音与画面高度匹配,极大地提升了视频的沉浸感和可用性。
- 强大的场景理解能力: 无论是游戏画面、篮球场上的复杂运动,还是古人讲课的场景,Veo3都能够准确理解提示词,并生成符合要求的视频内容。
- 分镜处理能力: Veo3能够在一段视频中生成不同的分镜,并且保持跨分镜人物的一致性,为视频创作提供了更大的灵活性。
- 视频延长能力: Veo3支持延长视频,并且能够保证延长部分的画面一致性,解决了长视频生成的难题。
- 多人唇形同步: Veo3能够实现多人唇形同步,这在数字人领域是一个巨大的突破,为数字人视频创作带来了新的可能性。
Veo3测试:各种场景下的惊艳表现
1. 语音生成和唇形同步能力
测试案例: 一只可爱的拟人化小猫刚刚进入学校,它背着自己的行李,好奇地打量着一切,嘴里还不停地嘀咕着。
测试结果: Veo3能够准确地生成小猫的语音,并且实现唇形同步,即使是与人类不同的唇形也能完美匹配。
2. 游戏场景生成能力
测试案例: 一位游戏直播者正在直播《堡垒之夜》,左上角是游戏画面,右下角是摄像头画面。他刚刚杀死了一名敌人,并兴奋地大叫着。
测试结果: Veo3能够准确地生成游戏画面,包括人物运动和游戏UI,并且能够与提示词的内容对上。
3. 复杂运动和声音的准确性
测试案例: 室内篮球场上,一名身穿红色球衣的球员正在快速运球,不断做出佯攻和变向动作,试图突破对方蓝衣球员的防守。他突然停下,双腿高高跃起,身体在空中伸展,手腕一抖,将篮球投向远处的篮圈。球在空中划出一道高高的弧线,直奔篮网中央而去。场边的观众都站了起来,仔细观察着球的轨迹。
测试结果: Veo3能够准确地生成篮球落地的声音、运动时球鞋和地板摩擦的声音,以及球和篮筐的声音。
4. 古人讲课场景生成能力
测试案例: 在一部科普影片中,牛顿在一棵苹果树下向观众解释万有引力定律,右侧的便携式黑板上显示着公式,突然一个苹果掉了下来,砸到了牛顿的头上。
测试结果: Veo3能够根据提示词生成古人讲课的场景,并且在视频中加入了一些有趣的细节,例如苹果砸到牛顿的头上。
5. 多分镜视频生成能力
测试案例: 一系列快速变换的动态镜头:运动员在烈日下奔跑,大汗淋漓,汗珠从额头滴落;冲浪者乘风破浪;一群年轻人在户外音乐节上兴奋地跳跃。特写镜头显示冰镇饮料被打开,气泡升腾。最后,几个人举杯祝酒,脸上洋溢着满足而充满活力的笑容。画面定格在产品徽标上。
测试结果: Veo3能够一次性生成包含五个分镜的视频,并且保持跨分镜人物的一致性。
6. 环境音生成能力
测试案例: 透过被雨水打湿的窗户,可以看到夜色中的街道和不断落下的雨滴。房间里,一个人坐在书桌前,手指飞快地敲击着笔记本电脑的键盘。墙上挂着一个古董钟,钟摆有节奏地来回摆动。
测试结果: Veo3能够生成逼真的环境音,例如雨声、键盘敲击声和钟摆声,甚至可以用于制作ASMR视频。
7. 视频播客场景生成能力
测试案例: 播客录制现场,两名女主持人正在讨论有关法LLM训练主题的内容,其中一人提问,另一人回答。
测试结果: Veo3能够生成对谈的播客视频,并且实现多人唇形同步。
8. 争吵场景生成能力
测试案例: 房间里,两名特工面对面站着,争吵着,互相指责对方任务失败的原因,他们的脸被强烈的愤怒涨得通红。他们用手指着对方,身体前倾,疯狂地挥舞着手臂。突然,其中一人猛地转身,大步走到门前,一把拉开门,头也不回地走了出去,“砰 ”地一声关上了身后的门。
测试结果: Veo3能够生成争吵的场景,并且夸张的表情和嘴部动作能够与情绪和语音保持一致。
9. 物理表现和声音的准确性
测试案例: 灯光明亮的厨房里,一个人正用菜刀在木质砧板上迅速而有节奏地切着五颜六色的蔬菜。旁边的水龙头开着,细细的水流不断流入水槽。他/她低着头,全神贯注,嘴唇偶尔微微蠕动。
测试结果: Veo3能够准确地生成切蔬菜的声音和水流的声音,并且物理表现也很逼真。
FLOW使用教程:打造你的专属AI视频
1. 访问FLOW
FLOW地址: https://labs.google/fx/zh/tools/flow
注意: 目前只有美国IP用户可以使用FLOW,Google AI Ultra会员可能可以尝试。
2. 新建项目
进入FLOW后,首先需要新建一个项目,用于存放你的所有视频素材。
3. 选择Veo3
在输入提示词之前,需要在输入框设置中选择Highest Quality的质量,这样才能使用Veo3模型。
提示: 如果你发现生成的视频没有声音,请检查是否选择了Highest Quality。
4. 生成视频
FLOW目前支持三种视频生成方式:
- 文生视频: 输入英文提示词即可生成视频。
- 图生视频: 支持单独的首帧、尾帧和首尾帧,可以使用Imagen模型生成图片。注意:目前不能直接上传图片。
- 素材转视频: 可以上传三张图片提取内容,一张图片提取风格,搭配提示词生成视频。注意:目前不支持上传外部图片。
5. 下载视频
生成的结果会在上面展示,点击下载按钮可以将生成的视频超分到1080P。
注意: 目前直接点击下载按钮下载的视频可能没有声音,你需要点击全屏按钮,然后在播放器右下角的三个点那里下载才会有声音。
6. 视频剪辑
在生成视频的右上角点击添加到场景按钮,或者点击画面右上角的Scenebuilder按钮,可以进入素材剪辑页面。
在剪辑页面,你可以:
- 调整分镜顺序:通过右边的排列按钮调整分镜的顺序。
- 删除分镜:通过右边的排列按钮删除不需要的分镜。
- 调整视频位置:拖动中间的进度条,调整下一个视频生成后的位置。
- 预览视频:点击最左边的播放按钮预览视频。
注意: FLOW的导出按钮位置比较隐蔽,你需要放大预览画面,然后点击三个点的下载按钮,才能下载编排好的完整视频。
7. 延长Veo3视频
点击分镜后的加号,可以看到跳转到和延长两个按钮。
注意: 如果你点击延长按钮,模型会自动切换到Veo2去生成。
正确的延长方式:
- 选择跳转到按钮。
- 确保播放光标在视频最后一帧,因为这是通过首尾帧实现的。
- 输入提示词。
注意: 在延长或跳转到的时候,不要回到编辑之前的素材库页面,可能会停止生成。
总结与启发
谷歌Veo3和FLOW的发布,标志着AI视频创作进入了一个新的阶段。Veo3强大的音效生成、语音生成和唇形同步能力,以及FLOW一站式的视频创作体验,都为用户提供了前所未有的便利。
Veo3的成功,也印证了将多种模型整合到一个完整的模型中,能够带来意想不到的效果。每一次Agent的模型化,即使每个部分的模型本身质量没有升级,也会带来非常多的应用场景和新的产品机会。
鲁迅说:
我认为:这Veo3和FLOW的出现,看似是科技的进步,实则也是对人类创造力的挑战。倘若我们只会依赖AI,而忘了独立思考和创新,那终将成为技术的奴隶。真正的进步,当是人与AI的和谐共生,共同创造出更加美好的未来。
,,,
感悟:
Veo3和FLOW的发布,让我看到了AI在视频创作领域的巨大潜力。它们不仅可以帮助我们快速生成高质量的视频内容,还可以激发我们的创作灵感。然而,我们也需要警惕AI可能带来的负面影响,例如对人类创造力的抑制。只有正确地利用AI,才能让它真正成为我们创作的助力,而不是替代品。