AI视频 #文本生成视频
AI视频的下一个图灵测试是什么?
为什么说“AI视频的下一个图灵测试是写作”?
最近,有人提出一个有趣的观点:AI视频的下一个图灵测试可能不是更逼真的画面,而是写作能力。 为什么这么说呢? 因为,现有的AI视频生成模型在理解并执行“写字”这个简单的动作时,遇到了巨大的挑战。
“人写字”这个动作对AI视频生成模型来说有多难?
为了验证这个观点,作者尝试了多次相同的提示:“man writes ‘hi’ in chalk on blackboard”(男人用粉笔在黑板上写“hi”)。结果发现,几乎所有的AI视频模型都无法准确地呈现这个简单的动作。
各大AI视频模型在“写字”上的表现如何?
Veo 2的表现如何?
Veo 2 是目前最接近成功的一个模型,但它仍然无法做到真正的“写字”。它能生成粉笔在黑板上的效果,但却无法呈现出书写的过程。这让人感到沮丧,因为它离“真正理解”还差一步。
Sora的表现又如何?
Sora 的尝试则显得有些滑稽,生成的视频中,人物看起来像是对他们无法写作这件事感到困惑,甚至产生了“存在危机”。
Hailuo (Minimax) 的表现呢?
Hailuo (Minimax) 能够生成正确的字母,并且在黑板上添加了一些视觉效果。但是,这些字母是直接“出现”的,而不是通过书写产生的。它仍然无法理解“写”这个动作的本质。
Kling的表现怎么样?
Kling 的表现稍好一些,它能够在黑板上描绘出粉笔的痕迹,并且这些痕迹的位置是符合逻辑的。但是,它生成的并不是字母,而是一些随机的草图。
Runway的表现如何?
Runway 的表现很有趣,虽然字母也是神奇地出现(粉笔甚至没有接触到黑板),但是手部动作是同步的。然而,视频中的其他元素则显得有些“奇怪”。
Pika的表现又如何?
Pika 则为视频添加了一些电影化的效果。它展示的是“Hi”已经写在另一个黑板上的场景,而不是书写的过程。
为什么“写字”对AI视频模型来说这么难?
从上述的测试结果可以看出,AI视频模型虽然在生成视觉效果方面取得了很大的进步,但在理解和模拟人类的书写行为方面仍然存在巨大的挑战。 这不仅仅是简单的“画出字母”,而是需要理解:
- 书写是一个连贯的动作过程,需要手部、粉笔和黑板之间的互动。
- 书写是有逻辑的,字母的笔画顺序是有规律的。
- 书写是带有目的性的,是表达信息的一种方式。
目前,AI视频模型似乎更擅长“模仿”视觉效果,而不是真正理解动作的含义和逻辑。
总结
通过这个简单的“写字”测试,我们发现:
- AI视频生成模型在理解和模拟人类的精细动作方面仍然存在不足。
- 写作能力可能成为衡量AI视频智能水平的一个新的标准。
- AI的未来发展,不仅要关注视觉效果的提升,更要注重对人类行为和思维的理解。
感悟
我认为:这“写字”一事,看似简单,却如一面镜子,照出了AI的短板。它们能绘出逼真的图像,却无法理解那粉笔与黑板间的微妙互动,正如那些只会模仿的鹦鹉,永远无法领会语言的真正含义。AI的未来,不在于堆砌华丽的视觉效果,而是要学会理解人类的思维方式,真正地“读懂”这个世界。