Stable Video Diffusion正式上线
概述
Stable Video Diffusion 是由Stability AI推出的视频生成模型,基于Stable Diffusion构建,现已开源。该模型能基于静止图像生成视频,目前尚未面向所有用户开放。
技术亮点
- 视频生成: 支持将静止图像转化为视频。
- 开源访问: 通过GitHub提供项目地址。
- 用户候补名单: 有兴趣的用户可以通过Stability AI网站注册等候名单。
安装步骤
- 访问项目GitHub页面:Stability-AI/generative-models
- 按照README文档中的步骤进行安装和配置。
使用说明
- 生成视频:根据文档说明,利用原有静止图像生成视频片段。
- 微调模型:可以对多视图数据集进行微调,以实现从单个图像到多视图的合成。
技术层面详解
预训练与微调
- 文本到图像预训练:作为训练的第一阶段,建立在Stable Diffusion 2.1基础上。
- 视频预训练数据集:创建了名为LVD(Large Video Dataset) 的数据集,包含580M条带注释的视频片段。
- 高质量微调:对模型进行微调,提高视频生成质量。
模型表现
- 在外部评估中,该模型超过了领先的闭源模型。
- 目前模型不适用于现实世界或直接的商业应用,将根据反馈进行完善。
论文与进一步阅读
- 论文地址:Stable Video Diffusion论文
- 相关新闻:Stability AI官方新闻发布
未来展望
- 多模态范畴:Stability AI的产品已横跨图像、语言、音频、三维和代码等多种模态。
- 电影生成:探讨了AI在未来直接生成电影的可能性。
参考链接
© 版权声明
文章版权归作者所有,未经允许请勿转载。