中关村论坛年会：Vidu首秀！Sora级视频大模型Vidu亮相！（2024中关村论坛年会）

2024中关村论坛年会｜中国首个Sora级视频大模型Vidu亮相

概述

北京商报讯（记者 杨月涵）4月27日上午的2024中关村论坛年会未来人工智能先锋论坛上，生数科技联合清华大学发布中国首个长时长、高一致性、高动态性视频大模型——Vidu。Vidu是自Sora发布之后，全球率先取得重大突破的视频大模型，性能全面对标国际顶尖水平，并在加速迭代提升中。

Vidu视频大模型的特点与技术突破

特点

“Vidu是全栈自主创新的最新成果，在多个维度实现了技术突破，比如可以模拟真实的物理世界、具有想象力、可以理解多镜头语言、可以一键生成长达16秒的视频、人物场景时间具有高度一致性，还可以理解中国元素。”现场，清华大学人工智能研究院副院长、生数科技首席科学家朱军说道。

技术突破

Vidu的快速突破源自于团队在贝叶斯机器学习和多模态大模型的长期积累和多项原创性成果。
其核心技术U-ViT架构由团队于2022年9月提出，早于Sora采用的DiT架构，是全球首个Diffusion与Transformer融合的架构。
2023年3月，团队开源了全球首个基于U-ViT融合架构的多模态扩散模型UniDiffuser，率先完成了U-ViT架构的大规模可扩展性验证。

Vidu视频大模型的研发进展

基于对U-ViT架构的深入理解以及长期积累的工程与数据经验，团队在短短两个月里进一步突破了长视频表示与处理的多项关键技术，研发了Vidu视频大模型，显著提升视频的连贯性和动态性。

总结

这篇报道展示了中国在人工智能领域的快速进展，特别是在视频大模型方面的创新。Vidu的亮相不仅体现了中关村论坛年会作为科技前沿的展示窗口，也凸显了中科生数科技与清华大学的强强联合。Vidu的技术优势在于其全栈自主创新以及对真实世界模拟的高一致性和动态性，这对于视频内容制作和理解意味着重大的突破。

从技术角度看，U-ViT架构的提出和UniDiffuser的开源，都是中国在人工智能领域的原创性贡献，它们的出现不仅加速了视频大模型的研发进程，还有可能对未来的多模态交互和内容创造产生深远影响。Vidu的成功是国内科研力量和创新能力的象征，也给世界展示了中国在高科技领域的竞争力。
https://bmanhua.com