【独家】OpenAI发布Sora视频生成模型，AI继承DALL·E 3，创造惊艳高清画质！人人都可以成为电影制作人即刻享受AI创作的魅力！

Sora2年前发布 wanglu852

OpenAI发布了首个视频生成模型 Sora，该模型继承了DALL·E 3的画质和遵循指令能力，能生成长达1分钟的高清视频。

Sora的能力

生成高清视频：Sora可以生成长达1分钟的高清视频，画质和遵循指令能力完美继承了DALL·E 3。
理解运动中的物理世界：OpenAI正在教AI理解和模拟运动中的物理世界，以帮助人们解决需要现实世界交互的问题。根据文本提示生成视频，仅仅是整个计划其中的一步。
生成具有多个角色、包含特定运动的复杂场景：Sora不仅能理解用户在提示中提出的要求，还了解这些物体在物理世界中的存在方式。例如，一大群纸飞机在树林中飞过，Sora知道碰撞后会发生什么，并表现其中的光影变化。
在单个视频中创建多个镜头：Sora还可以在单个视频中创建多个镜头，并依靠对语言的深入理解准确地解释提示词，保留角色和视觉风格。

Sora的弱点

OpenAI也指出了Sora当前存在的弱点，包括可能难以准确模拟复杂场景的物理原理，可能无法理解因果关系，可能混淆提示的空间细节，例如混淆左右，并可能难以精确描述随着时间推移发生的事件，例如遵循特定的相机轨迹。

Sora的技术特点

扩散模型：Sora是一种扩散模型，从噪声开始，能够一次生成整个视频或扩展视频的长度。
一次生成多帧的预测：关键之处在于一次生成多帧的预测，确保画面主体即使暂时离开视野也能保持不变。
使用Transformer架构：与GPT模型类似，Sora使用了Transformer架构，有很强的扩展性。
统一的数据表示方式：OpenAI将视频和图像表示为patch，类似于GPT中的token。通过这种统一的数据表示方式，可以在比以前更广泛的视觉数据上训练模型，涵盖不同的持续时间、分辨率和纵横比。
建立在过去的研究之上：Sora建立在过去对DALL·E和GPT模型的研究之上。它使用DALL·E 3的重述提示词技术，为视觉训练数据生成高度描述性的标注，因此能够更忠实地遵循用户的文本指令。

Sora的应用

目前已有一些视觉艺术家、设计师和电影制作人（以及OpenAI员工）获得了Sora访问权限。他们开始不断po出新的作品，奥特曼也开始了在线接单模式。只需带上你的提示词@sama，就有可能收到生成好的视频回复。

我觉得Sora的发布是AI技术的一大突破，它将AI的应用领域扩大到了视频生成，这对于视觉艺术家、设计师和电影制作人来说是一个巨大的福音。但同时，我们也需要警惕AI技术的滥用，需要有相应的规定和制度来限制AI的使用，防止其对人类社会造成不良影响。

Sora # AI # openai # sora # 标签 # 视频生成模型

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

2026年03月09日 AI行业最新动态

2026年03月09日 AI行业最新动态

AI工具科技资讯 # AI # 人工智能 # 大模型

4个月前

8,7600

AI冲击高校教育：人机协同育才，解锁未来核心技能

AI冲击高校教育：人机协同育才，解锁未来核心技能

AI前言 # AI # AI教育 # AI转型

1年前

20,7700

谷歌AI百日竞赛：追赶ChatGPT，Gemini豪赌未来？

谷歌AI百日竞赛：追赶ChatGPT，Gemini豪赌未来？

AI前言 # AI # ChatGPT # 人工智能

1年前

20,2500

Google Gemini 2.5：模型专精化，Deep Think加持，AI进入思考时代？

Google Gemini 2.5：模型专精化，Deep Think加持，AI进入思考时代？

AI前沿 # AI # AIGC # Deep

1年前

30,1200

error: Content is protected !!