VideoPoet: 谷歌领先LLM技术的全新视频创作神器!

AI前沿7个月前更新 wanglu852
10,871 0 0
广告也精彩

Google发布了一款新的视频生成模型,名为VideoPoet。相较于之前采用扩散架构的主流视频生成模型,VideoPoet采用了基于大语言模型(LLM)的自回归架构。它能够无缝地集成多种视频生成能力,包括文本生成视频、图像生成视频、视频风格化、视频修复以及视频转语音等。

架构与Token化

  1. 视频生成架构
    • VideoPoet采用LLM进行生成,利用 MAGVIT V2 和 SoundStream 对视频和语音进行Tokenizer处理。LLM生成的 tokens 可以通过这些 Tokenizer 的解码器转换为原始视频或语音。
  2. 训练优势
    • 使用LLM进行训练带来的一个关键优势是,能够重用现有LLM训练基础设施中的效率改进,并实现多模态生成的统一。

视频示例与应用

  1. 文本到视频
    • VideoPoet能够根据文本内容生成不同长度的视频,并应用多种动作和风格,比如模仿梵高的《Starry Night》等。
  2. 图像到视频
    • 可以输入图像,并根据文本提示进行动画模仿,展现多种视觉效果。
  3. 视频风格化
    • 预测输入视频的光流和深度信息,生成风格化的视频,展现不同场景和元素。
  4. 视频修复
    • 可以输入带mask的视频,实现视频的修复和扩展。
  5. 音频生成
    • VideoPoet可以生成音频,甚至在没有文本指导的情况下预测音频片段。

长视频生成与编辑

  1. 剧本式生成
    • 利用Bard写剧本,并为每个提示词生成视频片段,最后拼接成简短电影展示VideoPoet的能力。
  2. 视频延长
    • 通过对视频的条件设置和预测,实现更长视频的生成。
  3. 交互式编辑
    • 可以交互式地编辑现有视频片段,改变物体的运动或执行不同的动作,获得高度的编辑控制。

评估与潜力

  1. 人工评测
    • 在文本保真度和视频动态趣味性方面,VideoPoet在人工评测中表现优异。
  2. 潜力展望
    • VideoPoet展示了LLM在视频生成领域的潜力,未来能够支持多种生成应用,如文本到音频、音频到视频、视频字幕等。

VideoPoet作为基于LLM的视频生成模型,展现了多样化的应用潜力,能够实现多模态的大一统,对于视频生成领域具有重要意义。

详见:https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html

演示:https://sites.research.google/videopoet/

标签

© 版权声明
chatgpt4.0

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...
error: Content is protected !!