AI空间智能：李飞飞新思路，预测下一帧世界，解锁AI新未来

AI很会说话，但为何难以理解世界？李飞飞的“空间智能”新思路

一、为何AI“博览群书”，却仍然不解世事？

我们见证了AI，特别是大语言模型(LLM)如ChatGPT和Gemini的飞速发展。它们能通过律师资格考试，解奥数题，似乎无所不能。但著名计算机科学家李飞飞认为，目前的AI发展方向可能存在偏差：模型只在预测下一个词，而没有真正“理解世界”。

大语言模型的核心是“预测下一个词”。例如，输入“床前明月光”，它会预测“疑是地上霜”。然而，如果问它一些简单问题，比如“这辆车离树几米？”或“箱子能塞进后备箱吗？”，它往往会出错。

李飞飞打了个比方：大语言模型就像“黑暗中的秀才”。秀才读遍万卷书，精通苹果的知识，但从未见过真正的苹果，无法理解它的真实形态和质感。

如今AI的“智慧”，本质上是对语言统计规律的掌握，而非对现实世界的理解。这导致AI助手经常“胡说八道”，因为它们只遵照语法，不考虑物理世界的可能性。

二、语言或可虚构，但物理世界不会说谎：空间智能的重要性

要解决这个问题，需要让AI掌握“空间智能”。空间智能指的是“不通过语言，理解物理世界，并与物理世界互动的能力”。

例如，喝咖啡这个简单的动作，需要大脑处理大量信息：眼睛判断距离，肌肉调整力度，皮肤感知温度，手腕保持水平。这个过程不需要语言，而是靠感知、想象和行动。

李飞飞认为，拥有空间智能的AI，才能实现真正的智能。智能的本质是在不确定的世界中持续预测、行动和达成目标。

婴儿通过与积木的互动，建立“推倒积木->哗啦一声”的因果关系。沃森和克里克通过搭建DNA双螺旋结构的模型，发现了生命的真相。这些例子说明，伟大的发现往往先在空间中成型，才被翻译成语言。

因此，李飞飞强调，“看”和“动”是高级智能的基石。感知世界比描述世界更难，也更重要。

三、预测下一帧世界：AI的未来方向

“预测下一帧世界”指的是，AI能够像人类一样，预测物体在下一刻的状态。例如，松开手中的玻璃杯，AI应该立刻预测到杯子会掉在地上摔碎。

拥有这个能力，AI无需死记硬背“火是烫的”，通过模拟与世界的互动，就能推导出“手伸进火里->皮肤烧伤”的物理必然性。

预测下一个词遵循的是“语法逻辑”，而预测下一帧世界遵循的是“物理逻辑”。李飞飞将此称为“世界模型”。

与目前的AI视频不同，世界模型生成的环境具有重力、光影和遮挡关系，用户可以与环境互动。

要实现预测下一帧世界，需要让语义、几何、物理规律保持一致，这比处理语言复杂得多。李飞飞团队正在努力寻找简单的任务函数，以及海量的空间数据。他们正在开发一种算法，从互联网上的二维视频中提取空间信息。

未来的AI，或许能用物理“算”下一帧世界，而不再仅仅用概率“猜”下一个词。

四、空间智能带来的机遇：从可控视频生成到心理治疗

李飞飞的World Labs开发了一款名为Marble的产品，用户只需提供一句描述或一张照片，它就可以生成一个可以探索的空间。

如果AI真的拥有空间智能，将带来极大的便利：机器人可以进入家庭，帮助人们处理各种事务；AI可以拥有“科学家的直觉”，发现规律、进行创新。

对于创业者来说，加持空间智能的AI，可能意味着新的机会：

可控的视频生成：用户可以精确控制视频中物体的走位和光影角度。
“想象成真”的ToC产品：例如，通过照片生成虚拟样板间，或生成3D相册。
心理治疗：通过虚拟环境帮助病人克服恐惧。
合成数据：为机器人公司提供特定领域的“教材”，例如，维修汽车或做手术的数据。

将“想象”变成看得见、摸得着的“真实”，也许是接下来最大的机会之一。

五、总结与展望

目前AI的瓶颈在于，它没有真正理解世界，而只是在统计规律中找答案。未来的发展方向，可能是从预测下一个词，到预测下一帧世界，也就是真正掌握空间智能。

这个方向是否正确，我们无法确定。但至少这是一个值得尝试的方向。因为目前的大语言模型确实遇到了瓶颈。

如果这个方向真的走通了，将会带来巨大的变化。机器人可能真的能进入家庭。甚至，AI可能真的能像科学家一样，从现实中发现规律，而不只是从数据中总结规律。

当然，这一切都还很早。Marble还很粗糙。“世界模型”的“公式”还没找到，空间数据也还不够。但至少，通往智能的那个未来，又多了几分念想。

毕竟，科技进步从来不是一条直线，绕点远路，没啥。

我认为：AI的发展不应局限于语言的堆砌，更应注重对物理世界的理解与模拟。这不仅仅是技术上的突破，更是对智能本质的重新思考。正如鲁迅先生所说：“真的猛士，敢于直面惨淡的人生，敢于正视淋漓的鲜血。” AI要成为真正的“猛士”，就必须走出语言的舒适区，勇敢地探索未知的空间智能领域。

#机器学习

AI前沿 # AI # 世界模型 # 人工智能 # 大语言模型 # 李飞飞 # 空间智能

文章版权归作者所有，未经允许请勿转载。

突破界限：MiniCPM可部署到端侧大模型全方位解析！1元=1700000tokens！

AI前沿 # AI技术 # MiniCPM # 多模态

2年前

34,8670

智谱清言震撼升级！GLM-4-9B模型开源：性能飙升40%，上下文处理能力翻倍，你准备好了吗？

AI前沿

2年前

39,0550

AI技术打造治愈系风景视频：从文案到视频配乐的全流程指南

AI前沿

1年前

27,1820

ElevenLabs发布新产品VOICE ISOLATOR，革新音频处理体验

AI前沿

2年前

27,5290

AI空间智能：李飞飞新思路，预测下一帧世界，解锁AI新未来

AI很会说话，但为何难以理解世界？李飞飞的“空间智能”新思路

一、为何AI“博览群书”，却仍然不解世事？

二、语言或可虚构，但物理世界不会说谎：空间智能的重要性

三、预测下一帧世界：AI的未来方向

四、空间智能带来的机遇：从可控视频生成到心理治疗

五、总结与展望

蚂蚁“灵光”降维打击！内容创作门槛清零？普通人也能玩转创意

AI搜索革命：中国出海企业突围，GEO战略解析AI流量特征

相关文章

突破界限：MiniCPM可部署到端侧大模型全方位解析！1元=1700000tokens！

智谱清言震撼升级！GLM-4-9B模型开源：性能飙升40%，上下文处理能力翻倍，你准备好了吗？

AI技术打造治愈系风景视频：从文案到视频配乐的全流程指南

ElevenLabs发布新产品VOICE ISOLATOR，革新音频处理体验

热门文章

智能体

AI空间智能：李飞飞新思路，预测下一帧世界，解锁AI新未来

AI很会说话，但为何难以理解世界？李飞飞的“空间智能”新思路

一、为何AI“博览群书”，却仍然不解世事？

二、语言或可虚构，但物理世界不会说谎：空间智能的重要性

三、预测下一帧世界：AI的未来方向

四、空间智能带来的机遇：从可控视频生成到心理治疗

五、总结与展望

蚂蚁“灵光”降维打击！ 内容创作门槛清零？ 普通人也能玩转创意

AI搜索革命：中国出海企业突围，GEO战略解析AI流量特征

相关文章

突破界限：MiniCPM可部署到端侧大模型全方位解析！1元=1700000tokens！

智谱清言震撼升级！GLM-4-9B模型开源：性能飙升40%，上下文处理能力翻倍，你准备好了吗？

AI技术打造治愈系风景视频：从文案到视频配乐的全流程指南

ElevenLabs发布新产品VOICE ISOLATOR，革新音频处理体验

标签云

热门文章

智能体

蚂蚁“灵光”降维打击！内容创作门槛清零？普通人也能玩转创意