可灵：快手推出的国产视频生成大模型

可灵是快手公司在2024年推出的一款国产视频生成大模型，其技术路线与Sora相似，并结合了快手自研的技术创新。可灵的文生视频模型，已在快影 APP 中正式开启邀测，目前开放的版本支持 720P 视频生成，竖版视频生成能力也即将开放。

最新：快手可灵1.6：AI视频生成新标杆，全面升级解析

可灵的主要特点

可灵的主要特点是能够生成长达2分钟的高质量视频，且在描绘运动时符合真实的运动规律，准确刻画复杂、大幅度的时空运动。它不仅能模拟真实物理世界的特性，生成符合物理规律的视频，还能处理与真实物理世界的交互，例如在视频中展现小男孩吃汉堡时齿印的变化。

技术路线

可灵采用了原生的文生视频技术路线，替代了图像生成加时序模块的组合。这种技术路线使得可灵能够生成视频时间长、帧率高，并准确处理复杂运动。

模型设计

在模型设计方面，可灵采用了类Sora的DiT结构，用Transformer代替了传统扩散模型中基于卷积网络的U-Net，并通过自研的3DVAE网络和全注意力机制（3DAttention）提升模型的建模能力。

数据构建

在数据构建方面，快手大模型团队构建了完备的标签体系，精细化筛选训练数据，并研发了视频描述模型，以生成精确、详尽、结构化的视频描述。

运算效率

在运算效率方面，可灵使用了传输路径更短的flow模型作为扩散模型基座，并采用分布式训练集群和算子优化等手段提升硬件利用率。

模型能力扩展

在模型能力扩展方面，可灵支持自由的长宽比，并研发了基于自回归的视频时序拓展方案，同时还支持多种控制信息输入。

应用场景

可灵的应用场景非常广泛，包括但不限于视频生成、影视制作、游戏动画、虚拟现实、教育培训、广告宣传等领域。它可以用于生成各种类型的视频，如电影预告片、音乐MV、科普教育片、广告短片等。此外，可灵还支持AI舞王和AI唱跳等功能，为用户提供更加丰富的创作工具。

目标使用人群

可灵的目标使用人群主要是内容创作者、设计师、影视制作人、游戏开发者、教育工作者等。这些用户可以通过可灵的强大功能，轻松创建高质量的视频内容，提高工作效率，降低制作成本。同时，可灵也可以作为一个强大的工具，帮助业余爱好者和专业人士实现他们的创意和想法。

价格

生成视频需要灵感值，每月赠送366灵感值，除此之外还可以买会员赠送，或单独购买灵感值！

总结

总的来说，可灵是一款非常有潜力的大模型，它的出现将进一步推动视频生成技术的发展，为各行各业的内容创作带来更多的可能性。

数据统计

相关导航

Snap Video

Snap Video：用于文本到视频合成的缩放时空转换器

Runway

强大的AI视频制作工具，绿幕抠像、视频生成等

LTX Studio

AI生成电影时代到来！效果比Sora惊艳,著名AI平台大动作!文本生成超25秒视频,将于3.27号正式发布，目前开启预约...

Viggle AI

利用viggleAI，一个人物照片再加一段参考视频就可以生成一段整活视频。

一帧秒创

一帧秒创是基于秒创AIGC引擎的智能AI内容生成平台，包含AI图文转视频、AI作画创作平台AI帮写，智能一键百家号、公众号、头条号、搜狐号、新浪微博等图文、文章转视频，为企业及自媒体提供一站式视频生产和AI作画的营销神器，全面提升内容创作效率。

Vidu

Vidu视频大模型基于简单文字输入，生成个性化视频内容，媲美sora!

可灵