VideoPoet: 谷歌领先LLM技术的全新视频创作神器！

AI前沿2年前 (2024)更新 wanglu852

17,441 0 0

Google发布了一款新的视频生成模型，名为VideoPoet。相较于之前采用扩散架构的主流视频生成模型，VideoPoet采用了基于大语言模型（LLM）的自回归架构。它能够无缝地集成多种视频生成能力，包括文本生成视频、图像生成视频、视频风格化、视频修复以及视频转语音等。

架构与Token化

视频生成架构：
- VideoPoet采用LLM进行生成，利用 MAGVIT V2 和 SoundStream 对视频和语音进行Tokenizer处理。LLM生成的 tokens 可以通过这些 Tokenizer 的解码器转换为原始视频或语音。
训练优势：
- 使用LLM进行训练带来的一个关键优势是，能够重用现有LLM训练基础设施中的效率改进，并实现多模态生成的统一。

视频示例与应用

文本到视频：
- VideoPoet能够根据文本内容生成不同长度的视频，并应用多种动作和风格，比如模仿梵高的《Starry Night》等。
图像到视频：
- 可以输入图像，并根据文本提示进行动画模仿，展现多种视觉效果。
视频风格化：
- 预测输入视频的光流和深度信息，生成风格化的视频，展现不同场景和元素。
视频修复：
- 可以输入带mask的视频，实现视频的修复和扩展。
音频生成：
- VideoPoet可以生成音频，甚至在没有文本指导的情况下预测音频片段。

长视频生成与编辑

剧本式生成：
- 利用Bard写剧本，并为每个提示词生成视频片段，最后拼接成简短电影展示VideoPoet的能力。
视频延长：
- 通过对视频的条件设置和预测，实现更长视频的生成。
交互式编辑：
- 可以交互式地编辑现有视频片段，改变物体的运动或执行不同的动作，获得高度的编辑控制。

评估与潜力

人工评测：
- 在文本保真度和视频动态趣味性方面，VideoPoet在人工评测中表现优异。
潜力展望：
- VideoPoet展示了LLM在视频生成领域的潜力，未来能够支持多种生成应用，如文本到音频、音频到视频、视频字幕等。

VideoPoet作为基于LLM的视频生成模型，展现了多样化的应用潜力，能够实现多模态的大一统，对于视频生成领域具有重要意义。

详见：https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html

演示：https://sites.research.google/videopoet/

标签

# AI前沿 # LLM # VideoPoet # 人工评测 # 多模态生成 # 应用潜力 # 自回归架构 # 视频生成模型

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

如何使用提示词提升ChatGPT的推理能力？

wang, yizzcn

11,911

WebRL框架如何通过强化学习革命性提升LLMs网页智能体能力？

wang, yizzcn

15,211

Google Veo3实测：多模态影视创作，AI影像未来？

wang, yizzcn

8,405

【独家】OpenAI发布Sora视频生成模型，AI继承DALL·E 3，创造惊艳高清画质！人人都可以成为电影制作人即刻享受AI创作的魅力！

wanglu852

14,696

RAG自建避坑指南：馅饼or陷阱？成本、安全、维护全揭秘！

wang, yizzcn

9,700

AI新纪元！Claude 3.7 Sonnet横空出世！业界首个混合推理模型：速度与深度思考的完美结合

wang, yizzcn

10,640

易之网AIGC导航网站，集AI工具网址、AI绘画、AI教程、AI项目以及AI资讯于一体的AIGC导航网站，用户可以一站式找到有用的AI工具和教程。

AI绘画 AIGC项目教程 chatgpt 佰漫画 AI产品分享社区

Copyright © 2025 学AI很简单-易之网冀ICP备15003481号

冀公网安备13102402000431

error: Content is protected !!