Hotshot：四人团队如何烧掉数百万GPU，打造翻版「Sora」

AI前沿1年前 (2024)发布 wanglu852

10,812 0 0

Hotshot的诞生背景与目标

Hotshot是什么？

Hotshot是一款由美国AI创企Hotshot开发的视频模型，它是一款Transformer扩散模型，在快速对齐、一致性和运动方面表现出色，能够生成更长时间、更高分辨率的AI视频。

Hotshot的团队规模与成就

Hotshot仅由四个人组成，却完成了OpenAI整个“Sora”团队的工作量。他们的目标是打造一款能够生成任意分辨率和最长10秒的视频模型。

Hotshot的技术挑战与解决方案

数据工程：构建庞大的视频与图像数据库

目标设定：Hotshot设定了两个亿级目标，即扩展到6亿个剪辑视频和10亿张图像。
数据集构建：创建了一个300K的视频样本数据集，并手动添加字幕，对公开可用的VLM进行了微调，以进行视频理解。

研究：训练自研自动编码器

模型选择：从众多优秀开源存储库中挑选DiT（Diffusion Transformer）模型进行ImageNet训练。
自动编码器训练：训练一个新的自动编码器来在空间和时间上压缩视频，从而有效地训练长序列视频。

训练：优化训练架构

架构选择：评估几种不同的新架构，让模型的训练和推理速度提高约20%。
基础设施优化：使用不同类型的数据/模型并行性来大规模优化数据，编写自定义内核，最大限度地减少GPU费用。

扩散：优化与基础设施管理

硬件挑战：随着计算规模扩大，管理变得更加困难，H100经常出现故障。
优化策略：优化代码以尽可能快地运行，使用分布式文件系统或平衡网络在单个进程传输的权重。

Hotshot的产品与市场前景

Hotshot的产品迭代

Hotshot-XL：第一个视频模型，生成1秒8fps的视频，研发过程仅耗时3个月，并开源回馈社区。
Hotshot Act-One：第二个视频模型，生成3秒8fps的视频，训练耗时5个月。
Hotshot：第三个视频模型，可以生成长达10秒的720P镜头。

市场竞争与展望

市场竞争：2024年上半年，AI文生视频领域涌现出Runway Gen-3、PixVerse V2、Vidu、Dream Machine等10余款AI文生视频模型。
未来展望：Hotshot的创始人Sastry预测，AI生成内容可能在未来12个月内成为数字媒体的主流。

结论

Hotshot作为一个仅由四人组成的团队，通过烧掉数百万GPU，成功打造了一款高性能的视频模型。他们的创新精神和不懈努力为AI视频生成领域带来了新的可能性。

我认为： 在AI技术的快速发展中，Hotshot的故事展示了小团队也能通过创新和优化，在大规模计算和模型训练中取得显著成就。这种精神值得所有AI从业者学习和借鉴。

AI视频生成,,#Transformer扩散模型

# AI前沿 # Hotshot

文章版权归作者所有，未经允许请勿转载。

如何使用AI工具快速创建令人惊叹的视频

wang, yizzcn

9,158

LiblibAI：国内AI图像生成平台崛起之路与未来展望

wanglu852

10,395

飞书+DeepSeek：几秒创作爆款文？| 公众号效率神器 | AI写作新纪元

wang, yizzcn

14,140

知识库检索的现状与解决方案

wanglu852

17,858

Claude2.1版本发布，200K上下文继续领先chatgpt4.0的128K上下文！

wanglu852

16,873

AI编程：用Cursor入门，简化开发流程，打造爆款产品

wang, yizzcn

5,743

Hotshot：四人团队如何烧掉数百万GPU，打造翻版「Sora」

Hotshot的诞生背景与目标

Hotshot是什么？

Hotshot的团队规模与成就

Hotshot的技术挑战与解决方案

数据工程：构建庞大的视频与图像数据库

研究：训练自研自动编码器

训练：优化训练架构

扩散：优化与基础设施管理

Hotshot的产品与市场前景

Hotshot的产品迭代

市场竞争与展望

结论

AI视频生成,,#Transformer扩散模型

OpenAI 推出 GPT-4o 模型微调功能，每天免费送100的女tokens!

Viggle AI工具：助力视频创作，让马斯克和特朗普“共舞”引爆全网流量

相关文章

相关文章