Google发布了一款新的视频生成模型,名为VideoPoet。相较于之前采用扩散架构的主流视频生成模型,VideoPoet采用了基于大语言模型(LLM)的自回归架构。它能够无缝地集成多种视频生成能力,包括文本生成视频、图像生成视频、视频风格化、视频修复以及视频转语音等。
架构与Token化
- 视频生成架构:
- VideoPoet采用LLM进行生成,利用 MAGVIT V2 和 SoundStream 对视频和语音进行Tokenizer处理。LLM生成的 tokens 可以通过这些 Tokenizer 的解码器转换为原始视频或语音。
- 训练优势:
- 使用LLM进行训练带来的一个关键优势是,能够重用现有LLM训练基础设施中的效率改进,并实现多模态生成的统一。
视频示例与应用
- 文本到视频:
- VideoPoet能够根据文本内容生成不同长度的视频,并应用多种动作和风格,比如模仿梵高的《Starry Night》等。
- 图像到视频:
- 可以输入图像,并根据文本提示进行动画模仿,展现多种视觉效果。
- 视频风格化:
- 预测输入视频的光流和深度信息,生成风格化的视频,展现不同场景和元素。
- 视频修复:
- 可以输入带mask的视频,实现视频的修复和扩展。
- 音频生成:
- VideoPoet可以生成音频,甚至在没有文本指导的情况下预测音频片段。
长视频生成与编辑
- 剧本式生成:
- 利用Bard写剧本,并为每个提示词生成视频片段,最后拼接成简短电影展示VideoPoet的能力。
- 视频延长:
- 通过对视频的条件设置和预测,实现更长视频的生成。
- 交互式编辑:
- 可以交互式地编辑现有视频片段,改变物体的运动或执行不同的动作,获得高度的编辑控制。
评估与潜力
- 人工评测:
- 在文本保真度和视频动态趣味性方面,VideoPoet在人工评测中表现优异。
- 潜力展望:
- VideoPoet展示了LLM在视频生成领域的潜力,未来能够支持多种生成应用,如文本到音频、音频到视频、视频字幕等。
VideoPoet作为基于LLM的视频生成模型,展现了多样化的应用潜力,能够实现多模态的大一统,对于视频生成领域具有重要意义。
详见:https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html
演示:https://sites.research.google/videopoet/
标签
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...