可灵:快手推出的国产视频生成大模型
可灵是快手公司在2024年推出的一款国产视频生成大模型,其技术路线与Sora相似,并结合了快手自研的技术创新。可灵的文生视频模型,已在快影 APP 中正式开启邀测,目前开放的版本支持 720P 视频生成,竖版视频生成能力也即将开放。
可灵的主要特点
可灵的主要特点是能够生成长达2分钟的高质量视频,且在描绘运动时符合真实的运动规律,准确刻画复杂、大幅度的时空运动。它不仅能模拟真实物理世界的特性,生成符合物理规律的视频,还能处理与真实物理世界的交互,例如在视频中展现小男孩吃汉堡时齿印的变化。
技术路线
可灵采用了原生的文生视频技术路线,替代了图像生成加时序模块的组合。这种技术路线使得可灵能够生成视频时间长、帧率高,并准确处理复杂运动。
模型设计
在模型设计方面,可灵采用了类Sora的DiT结构,用Transformer代替了传统扩散模型中基于卷积网络的U-Net,并通过自研的3DVAE网络和全注意力机制(3DAttention)提升模型的建模能力。
数据构建
在数据构建方面,快手大模型团队构建了完备的标签体系,精细化筛选训练数据,并研发了视频描述模型,以生成精确、详尽、结构化的视频描述。
运算效率
在运算效率方面,可灵使用了传输路径更短的flow模型作为扩散模型基座,并采用分布式训练集群和算子优化等手段提升硬件利用率。
模型能力扩展
在模型能力扩展方面,可灵支持自由的长宽比,并研发了基于自回归的视频时序拓展方案,同时还支持多种控制信息输入。
应用场景
可灵的应用场景非常广泛,包括但不限于视频生成、影视制作、游戏动画、虚拟现实、教育培训、广告宣传等领域。它可以用于生成各种类型的视频,如电影预告片、音乐MV、科普教育片、广告短片等。此外,可灵还支持AI舞王和AI唱跳等功能,为用户提供更加丰富的创作工具。
目标使用人群
可灵的目标使用人群主要是内容创作者、设计师、影视制作人、游戏开发者、教育工作者等。这些用户可以通过可灵的强大功能,轻松创建高质量的视频内容,提高工作效率,降低制作成本。同时,可灵也可以作为一个强大的工具,帮助业余爱好者和专业人士实现他们的创意和想法。
总结
总的来说,可灵是一款非常有潜力的大模型,它的出现将进一步推动视频生成技术的发展,为各行各业的内容创作带来更多的可能性。