Sora: OpenAI的新一代生成式AI系统

Sora8个月前更新 wanglu852
11,690 0 0
广告也精彩

Sora: OpenAI的新一代生成式AI系统

什么是Sora?

OpenAI本月宣布了一种名为Sora的新生成式AI系统,它能根据文本提示生成短视频。虽然Sora还未对公众开放,但迄今发布的样本输出质量高,引发了人们的兴奋和担忧反应。

OpenAI发布的样本视频,据该公司称是由Sora直接生成的,没有进行修改,显示了如“在咖啡杯内航行的两艘海盗船进行逼真的近距离战斗”和“加利福尼亚淘金热时期的历史镜头”等提示的输出。Sora: OpenAI的新一代生成式AI系统

初看之下,由于视频质量高、纹理、场景动态、摄像机移动和一致性都很好,人们往往很难分辨它们是由AI生成的。

OpenAI首席执行官Sam Altman也在X(前身为Twitter)上发布了一些用户建议提示的视频,以展示Sora的功能。

Sora如何工作?

Sora结合了文本和图像生成工具的特性,被称为“扩散变压器模型”。

变压器是Google在2017年首次引入的一种神经网络类型。它们最为人所知的用途是在大型语言模型中,例如ChatGPT和Google Gemini。

另一方面,扩散模型是许多AI图像生成器的基础。它们的工作方式是从随机噪声开始,迭代向符合输入提示的“清晰”图像。

一个视频可以由这样的图像序列制作而成。然而,在视频中,帧与帧之间的连贯性和一致性是至关重要的。

Sora使用变压器架构来处理帧之间的关系。虽然变压器最初是设计用来找到代表文本的令牌中的模式,但Sora使用的令牌代表的是空间和时间的小片段。

领先的模型

Sora并非首个文本到视频的模型。早期的模型包括Meta的Emu、Runway的Gen-2、Stability AI的Stable Video Diffusion,以及最近的Google的Lumiere。

几周前刚发布的Lumiere声称比前任产生更好的视频。但Sora在某些方面似乎比Lumiere更强大。

Sora可以生成分辨率高达1920 × 1080像素的视频,并在各种宽高比下生成,而Lumiere仅限于512 × 512像素。Lumiere的视频大约5秒长,而Sora可以制作长达60秒的视频。

Lumiere无法制作由多个镜头组成的视频,而Sora可以。据报道,Sora和其他模型一样,还能够进行视频编辑任务,如从图像或其他视频创建视频,组合不同视频的元素,以及延长视频时间。

这两种模型都可以生成大致逼真的视频,但可能会有幻觉。Lumiere的视频可能更容易被识别为AI生成。Sora的视频看起来更动态,元素之间的互动更多。

然而,在许多示例视频中,仔细观察会发现一些不一致。

有前景的应用

目前,视频内容是通过拍摄真实世界或使用特效制作的,这都可能需要花费大量的成本和时间。如果Sora以合理的价格提供,人们可能会开始将其作为原型软件,以更低的成本将想法可视化。

根据我们对Sora的能力的了解,它甚至可以用于娱乐、广告和教育等应用中的短视频制作。

OpenAI关于Sora的技术论文的标题是“视频生成模型作为世界模拟器”。论文认为,像Sora这样的视频生成器的更大版本可能是“物理和数字世界,以及其中的物体、动物和人的可行模拟器”。

如果这是正确的,未来的版本可能会有科学应用,用于物理、化学甚至社会实验。例如,人们可能能够测试不同大小的海啸对不同类型的基础设施的影响——以及对附近人们的身体和心理健康的影响。

要实现这种模拟水平是非常具有挑战性的,一些专家说像Sora这样的系统根本无法做到。

一个完整的模拟器需要在宇宙最详细的层面上计算物理和化学反应。然而,模拟世界的粗略近似,并制作出对人眼来说逼真的视频,在未来几年可能是可以实现的。

风险道德问题

对于像Sora这样的工具,主要的担忧是它们的社会和道德影响。在一个已经被虚假信息困扰的世界里,像Sora这样的工具可能会使事情变得更糟。

人们很容易看到,能够生成你可以描述的任何场景的逼真视频的能力,可能被用来传播令人信服的假新闻,或者对真实的镜头产生怀疑。它可能危及公共卫生措施,被用来影响选举,甚至可能用假证据给司法系统带来压力。

视频生成器也可能通过deepfakes对特定个体构成直接威胁——尤其是色情的。这可能对受影响的个人及其家庭的生活产生可怕的影响。

除了这些担忧外,还有版权和知识产权的问题。生成式AI工具需要大量的训练数据,而OpenAI并未透露Sora的训练数据来源。

大型语言模型和图像生成器也因此受到批评。在美国,一群著名的作者已经起诉OpenAI,因为他们可能滥用了他们的材料。该案件认为,大型语言模型及使用它们的公司,正在盗取作者的作品来创造新的内容。

这并不是最近记忆中科技领先于法律的第一次。例如,社交媒体平台在内容审查方面的义务问题,在过去几年中引发了热烈的辩论——这其中很大一部分都围绕着美国法典的第230条。

虽然这些担忧是真实的,但根据过去的经验,我们不认为它们会阻止视频生成技术的发展。OpenAI表示,在Sora向公众开放之前,它正在“采取几个重要的安全步骤”,包括与“误信息、仇恨内容和偏见”的专家合作,以及“建立工具来帮助检测误导性的内容”。

本文由Monash University的人机交互博士候选人Vahid Pooryousef和Linköping University的数据可视化助理教授Lonni Besançon撰写。

这篇文章是从The Conversation以Creative Commons许可重新发布的。阅读原文。

总结与感悟

Sora作为OpenAI的新一代生成式AI系统,其能力在于根据文本提示生成逼真的短视频。这一技术的发展无疑将为娱乐、广告和教育等领域带来巨大潜力,同时也为科学实验提供了新的可能性。然而,我们也不能忽视其带来的风险和道德问题,包括可能被用于传播假新闻、影响选举,以及对个人和社会造成的威胁等。因此,对这种技术的发展,我们需要保持警惕和审慎的态度。

关键词

© 版权声明
chatgpt4.0

相关文章

error: Content is protected !!