【独家】OpenAI发布Sora视频生成模型,AI继承DALL·E 3,创造惊艳高清画质!人人都可以成为电影制作人即刻享受AI创作的魅力!

Sora1年前 (2024)更新 wanglu852
12,036 0 0
广告也精彩

OpenAI发布了首个视频生成模型Sora,该模型继承了DALL·E 3的画质和遵循指令能力,能生成长达1分钟的高清视频。
【独家】OpenAI发布Sora视频生成模型,AI继承DALL·E 3,创造惊艳高清画质!人人都可以成为电影制作人即刻享受AI创作的魅力!

Sora的能力

  • 生成高清视频:Sora可以生成长达1分钟的高清视频,画质和遵循指令能力完美继承了DALL·E 3。
  • 理解运动中的物理世界:OpenAI正在教AI理解和模拟运动中的物理世界,以帮助人们解决需要现实世界交互的问题。根据文本提示生成视频,仅仅是整个计划其中的一步。
  • 生成具有多个角色、包含特定运动的复杂场景:Sora不仅能理解用户在提示中提出的要求,还了解这些物体在物理世界中的存在方式。例如,一大群纸飞机在树林中飞过,Sora知道碰撞后会发生什么,并表现其中的光影变化。
  • 在单个视频中创建多个镜头:Sora还可以在单个视频中创建多个镜头,并依靠对语言的深入理解准确地解释提示词,保留角色和视觉风格。

Sora的弱点

OpenAI也指出了Sora当前存在的弱点,包括可能难以准确模拟复杂场景的物理原理,可能无法理解因果关系,可能混淆提示的空间细节,例如混淆左右,并可能难以精确描述随着时间推移发生的事件,例如遵循特定的相机轨迹。

Sora的技术特点

  • 扩散模型:Sora是一种扩散模型,从噪声开始,能够一次生成整个视频或扩展视频的长度。
  • 一次生成多帧的预测:关键之处在于一次生成多帧的预测,确保画面主体即使暂时离开视野也能保持不变。
  • 使用Transformer架构:与GPT模型类似,Sora使用了Transformer架构,有很强的扩展性。
  • 统一的数据表示方式:OpenAI将视频和图像表示为patch,类似于GPT中的token。通过这种统一的数据表示方式,可以在比以前更广泛的视觉数据上训练模型,涵盖不同的持续时间、分辨率和纵横比。
  • 建立在过去的研究之上:Sora建立在过去对DALL·E和GPT模型的研究之上。它使用DALL·E 3的重述提示词技术,为视觉训练数据生成高度描述性的标注,因此能够更忠实地遵循用户的文本指令。

Sora的应用

目前已有一些视觉艺术家、设计师和电影制作人(以及OpenAI员工)获得了Sora访问权限。他们开始不断po出新的作品,奥特曼也开始了在线接单模式。只需带上你的提示词@sama,就有可能收到生成好的视频回复。

我觉得Sora的发布是AI技术的一大突破,它将AI的应用领域扩大到了视频生成,这对于视觉艺术家、设计师和电影制作人来说是一个巨大的福音。但同时,我们也需要警惕AI技术的滥用,需要有相应的规定和制度来限制AI的使用,防止其对人类社会造成不良影响。

© 版权声明
chatgpt4.0

相关文章

error: Content is protected !!