Hotshot:四人团队如何烧掉数百万GPU,打造翻版「Sora」

AI前沿3周前发布 wanglu852
2,512 0 0
广告也精彩

Hotshot的诞生背景与目标

Hotshot是什么?

Hotshot是一款由美国AI创企Hotshot开发的视频模型,它是一款Transformer扩散模型,在快速对齐、一致性和运动方面表现出色,能够生成更长时间、更高分辨率的AI视频。

Hotshot的团队规模与成就

Hotshot仅由四个人组成,却完成了OpenAI整个“Sora”团队的工作量。他们的目标是打造一款能够生成任意分辨率和最长10秒的视频模型。

Hotshot的技术挑战与解决方案

数据工程:构建庞大的视频与图像数据库

  • 目标设定:Hotshot设定了两个亿级目标,即扩展到6亿个剪辑视频和10亿张图像。
  • 数据集构建:创建了一个300K的视频样本数据集,并手动添加字幕,对公开可用的VLM进行了微调,以进行视频理解。

研究:训练自研自动编码器

  • 模型选择:从众多优秀开源存储库中挑选DiT(Diffusion Transformer)模型进行ImageNet训练。
  • 自动编码器训练:训练一个新的自动编码器来在空间和时间上压缩视频,从而有效地训练长序列视频。

训练:优化训练架构

  • 架构选择:评估几种不同的新架构,让模型的训练和推理速度提高约20%。
  • 基础设施优化:使用不同类型的数据/模型并行性来大规模优化数据,编写自定义内核,最大限度地减少GPU费用。

扩散:优化与基础设施管理

  • 硬件挑战:随着计算规模扩大,管理变得更加困难,H100经常出现故障。
  • 优化策略:优化代码以尽可能快地运行,使用分布式文件系统或平衡网络在单个进程传输的权重。

Hotshot的产品与市场前景

Hotshot的产品迭代

  • Hotshot-XL:第一个视频模型,生成1秒8fps的视频,研发过程仅耗时3个月,并开源回馈社区。
  • Hotshot Act-One:第二个视频模型,生成3秒8fps的视频,训练耗时5个月。
  • Hotshot:第三个视频模型,可以生成长达10秒的720P镜头。

市场竞争与展望

  • 市场竞争:2024年上半年,AI文生视频领域涌现出Runway Gen-3、PixVerse V2、Vidu、Dream Machine等10余款AI文生视频模型。
  • 未来展望:Hotshot的创始人Sastry预测,AI生成内容可能在未来12个月内成为数字媒体的主流。

结论

Hotshot作为一个仅由四人组成的团队,通过烧掉数百万GPU,成功打造了一款高性能的视频模型。他们的创新精神和不懈努力为AI视频生成领域带来了新的可能性。

我认为: 在AI技术的快速发展中,Hotshot的故事展示了小团队也能通过创新和优化,在大规模计算和模型训练中取得显著成就。这种精神值得所有AI从业者学习和借鉴。

AI视频生成,,#Transformer扩散模型

© 版权声明
chatgpt4.0

相关文章

error: Content is protected !!