Sora: OpenAI的新一代生成式AI系统

Sora1年前 (2024)更新 wanglu852

16,870 0 0

Sora: OpenAI的新一代生成式AI系统

什么是Sora？

OpenAI本月宣布了一种名为Sora的新生成式AI系统，它能根据文本提示生成短视频。虽然Sora还未对公众开放，但迄今发布的样本输出质量高，引发了人们的兴奋和担忧反应。

OpenAI发布的样本视频，据该公司称是由Sora直接生成的，没有进行修改，显示了如“在咖啡杯内航行的两艘海盗船进行逼真的近距离战斗”和“加利福尼亚淘金热时期的历史镜头”等提示的输出。 Sora: OpenAI的新一代生成式AI系统

初看之下，由于视频质量高、纹理、场景动态、摄像机移动和一致性都很好，人们往往很难分辨它们是由AI生成的。

OpenAI首席执行官Sam Altman也在X（前身为Twitter）上发布了一些用户建议提示的视频，以展示Sora的功能。

Sora如何工作？

Sora结合了文本和图像生成工具的特性，被称为“扩散变压器模型”。

变压器是Google在2017年首次引入的一种神经网络类型。它们最为人所知的用途是在大型语言模型中，例如ChatGPT和Google Gemini。

另一方面，扩散模型是许多AI图像生成器的基础。它们的工作方式是从随机噪声开始，迭代向符合输入提示的“清晰”图像。

一个视频可以由这样的图像序列制作而成。然而，在视频中，帧与帧之间的连贯性和一致性是至关重要的。

Sora使用变压器架构来处理帧之间的关系。虽然变压器最初是设计用来找到代表文本的令牌中的模式，但Sora使用的令牌代表的是空间和时间的小片段。

领先的模型

Sora并非首个文本到视频的模型。早期的模型包括Meta的Emu、Runway的Gen-2、Stability AI的Stable Video Diffusion，以及最近的Google的Lumiere。

几周前刚发布的Lumiere声称比前任产生更好的视频。但Sora在某些方面似乎比Lumiere更强大。

Sora可以生成分辨率高达1920 × 1080像素的视频，并在各种宽高比下生成，而Lumiere仅限于512 × 512像素。Lumiere的视频大约5秒长，而Sora可以制作长达60秒的视频。

Lumiere无法制作由多个镜头组成的视频，而Sora可以。据报道，Sora和其他模型一样，还能够进行视频编辑任务，如从图像或其他视频创建视频，组合不同视频的元素，以及延长视频时间。

这两种模型都可以生成大致逼真的视频，但可能会有幻觉。Lumiere的视频可能更容易被识别为AI生成。Sora的视频看起来更动态，元素之间的互动更多。

然而，在许多示例视频中，仔细观察会发现一些不一致。

有前景的应用

目前，视频内容是通过拍摄真实世界或使用特效制作的，这都可能需要花费大量的成本和时间。如果Sora以合理的价格提供，人们可能会开始将其作为原型软件，以更低的成本将想法可视化。

根据我们对Sora的能力的了解，它甚至可以用于娱乐、广告和教育等应用中的短视频制作。

OpenAI关于Sora的技术论文的标题是“视频生成模型作为世界模拟器”。论文认为，像Sora这样的视频生成器的更大版本可能是“物理和数字世界，以及其中的物体、动物和人的可行模拟器”。

如果这是正确的，未来的版本可能会有科学应用，用于物理、化学甚至社会实验。例如，人们可能能够测试不同大小的海啸对不同类型的基础设施的影响——以及对附近人们的身体和心理健康的影响。

要实现这种模拟水平是非常具有挑战性的，一些专家说像Sora这样的系统根本无法做到。

一个完整的模拟器需要在宇宙最详细的层面上计算物理和化学反应。然而，模拟世界的粗略近似，并制作出对人眼来说逼真的视频，在未来几年可能是可以实现的。

风险和道德问题

对于像Sora这样的工具，主要的担忧是它们的社会和道德影响。在一个已经被虚假信息困扰的世界里，像Sora这样的工具可能会使事情变得更糟。

人们很容易看到，能够生成你可以描述的任何场景的逼真视频的能力，可能被用来传播令人信服的假新闻，或者对真实的镜头产生怀疑。它可能危及公共卫生措施，被用来影响选举，甚至可能用假证据给司法系统带来压力。

视频生成器也可能通过deepfakes对特定个体构成直接威胁——尤其是色情的。这可能对受影响的个人及其家庭的生活产生可怕的影响。

除了这些担忧外，还有版权和知识产权的问题。生成式AI工具需要大量的训练数据，而OpenAI并未透露Sora的训练数据来源。

大型语言模型和图像生成器也因此受到批评。在美国，一群著名的作者已经起诉OpenAI，因为他们可能滥用了他们的材料。该案件认为，大型语言模型及使用它们的公司，正在盗取作者的作品来创造新的内容。

这并不是最近记忆中科技领先于法律的第一次。例如，社交媒体平台在内容审查方面的义务问题，在过去几年中引发了热烈的辩论——这其中很大一部分都围绕着美国法典的第230条。

虽然这些担忧是真实的，但根据过去的经验，我们不认为它们会阻止视频生成技术的发展。OpenAI表示，在Sora向公众开放之前，它正在“采取几个重要的安全步骤”，包括与“误信息、仇恨内容和偏见”的专家合作，以及“建立工具来帮助检测误导性的内容”。

本文由Monash University的人机交互博士候选人Vahid Pooryousef和Linköping University的数据可视化助理教授Lonni Besançon撰写。

这篇文章是从The Conversation以Creative Commons许可重新发布的。阅读原文。

总结与感悟

Sora作为OpenAI的新一代生成式AI系统，其能力在于根据文本提示生成逼真的短视频。这一技术的发展无疑将为娱乐、广告和教育等领域带来巨大潜力，同时也为科学实验提供了新的可能性。然而，我们也不能忽视其带来的风险和道德问题，包括可能被用于传播假新闻、影响选举，以及对个人和社会造成的威胁等。因此，对这种技术的发展，我们需要保持警惕和审慎的态度。