AI很会说话,但为何难以理解世界?李飞飞的“空间智能”新思路
一、为何AI“博览群书”,却仍然不解世事?
我们见证了AI,特别是大语言模型(LLM)如ChatGPT和Gemini的飞速发展。它们能通过律师资格考试,解奥数题,似乎无所不能。但著名计算机科学家李飞飞认为,目前的AI发展方向可能存在偏差:模型只在预测下一个词,而没有真正“理解世界”。
大语言模型的核心是“预测下一个词”。例如,输入“床前明月光”,它会预测“疑是地上霜”。然而,如果问它一些简单问题,比如“这辆车离树几米?”或“箱子能塞进后备箱吗?”,它往往会出错。
李飞飞打了个比方:大语言模型就像“黑暗中的秀才”。秀才读遍万卷书,精通苹果的知识,但从未见过真正的苹果,无法理解它的真实形态和质感。
如今AI的“智慧”,本质上是对语言统计规律的掌握,而非对现实世界的理解。这导致AI助手经常“胡说八道”,因为它们只遵照语法,不考虑物理世界的可能性。
二、语言或可虚构,但物理世界不会说谎:空间智能的重要性
要解决这个问题,需要让AI掌握“空间智能”。空间智能指的是“不通过语言,理解物理世界,并与物理世界互动的能力”。
例如,喝咖啡这个简单的动作,需要大脑处理大量信息:眼睛判断距离,肌肉调整力度,皮肤感知温度,手腕保持水平。这个过程不需要语言,而是靠感知、想象和行动。
李飞飞认为,拥有空间智能的AI,才能实现真正的智能。智能的本质是在不确定的世界中持续预测、行动和达成目标。
婴儿通过与积木的互动,建立“推倒积木->哗啦一声”的因果关系。沃森和克里克通过搭建DNA双螺旋结构的模型,发现了生命的真相。这些例子说明,伟大的发现往往先在空间中成型,才被翻译成语言。
因此,李飞飞强调,“看”和“动”是高级智能的基石。感知世界比描述世界更难,也更重要。
三、预测下一帧世界:AI的未来方向
“预测下一帧世界”指的是,AI能够像人类一样,预测物体在下一刻的状态。例如,松开手中的玻璃杯,AI应该立刻预测到杯子会掉在地上摔碎。
拥有这个能力,AI无需死记硬背“火是烫的”,通过模拟与世界的互动,就能推导出“手伸进火里->皮肤烧伤”的物理必然性。
预测下一个词遵循的是“语法逻辑”,而预测下一帧世界遵循的是“物理逻辑”。李飞飞将此称为“世界模型”。
与目前的AI视频不同,世界模型生成的环境具有重力、光影和遮挡关系,用户可以与环境互动。
要实现预测下一帧世界,需要让语义、几何、物理规律保持一致,这比处理语言复杂得多。李飞飞团队正在努力寻找简单的任务函数,以及海量的空间数据。他们正在开发一种算法,从互联网上的二维视频中提取空间信息。
未来的AI,或许能用物理“算”下一帧世界,而不再仅仅用概率“猜”下一个词。
四、空间智能带来的机遇:从可控视频生成到心理治疗
李飞飞的World Labs开发了一款名为Marble的产品,用户只需提供一句描述或一张照片,它就可以生成一个可以探索的空间。
如果AI真的拥有空间智能,将带来极大的便利:机器人可以进入家庭,帮助人们处理各种事务;AI可以拥有“科学家的直觉”,发现规律、进行创新。
对于创业者来说,加持空间智能的AI,可能意味着新的机会:
- 可控的视频生成:用户可以精确控制视频中物体的走位和光影角度。
- “想象成真”的ToC产品:例如,通过照片生成虚拟样板间,或生成3D相册。
- 心理治疗:通过虚拟环境帮助病人克服恐惧。
- 合成数据:为机器人公司提供特定领域的“教材”,例如,维修汽车或做手术的数据。
将“想象”变成看得见、摸得着的“真实”,也许是接下来最大的机会之一。
五、总结与展望
目前AI的瓶颈在于,它没有真正理解世界,而只是在统计规律中找答案。未来的发展方向,可能是从预测下一个词,到预测下一帧世界,也就是真正掌握空间智能。
这个方向是否正确,我们无法确定。但至少这是一个值得尝试的方向。因为目前的大语言模型确实遇到了瓶颈。
如果这个方向真的走通了,将会带来巨大的变化。机器人可能真的能进入家庭。甚至,AI可能真的能像科学家一样,从现实中发现规律,而不只是从数据中总结规律。
当然,这一切都还很早。Marble还很粗糙。“世界模型”的“公式”还没找到,空间数据也还不够。但至少,通往智能的那个未来,又多了几分念想。
毕竟,科技进步从来不是一条直线,绕点远路,没啥。
我认为:AI的发展不应局限于语言的堆砌,更应注重对物理世界的理解与模拟。这不仅仅是技术上的突破,更是对智能本质的重新思考。正如鲁迅先生所说:“真的猛士,敢于直面惨淡的人生,敢于正视淋漓的鲜血。” AI要成为真正的“猛士”,就必须走出语言的舒适区,勇敢地探索未知的空间智能领域。
#机器学习
© 版权声明
文章版权归作者所有,未经允许请勿转载。
