多模态评测新突破：BabyVision引发行业对AI视觉理解的深度思考

多模态评测新突破：BabyVision引发的行业思考

什么是BabyVision？它的核心目标和设计理念是什么？

**BabyVision**由**红杉中国**联合**xbench**与**UniPat AI**共同发布，是一套专注于**多模态大模型视觉能力**的评测集。其核心目标在于量化**多模态模型在纯视觉任务中的表现**，特别是面对那些在语言描述上难以表达的细节。设计理念借鉴了“严格控制语言依赖”的原则，构建了由**22个子任务组成的四大类**测试，包括**细节辨别、视觉追踪、空间感知和模式识别**，意在检测模型**“当语言帮不上忙时，还能不能用‘眼睛’看懂”**。

为什么说目前最强多模态模型在纯视觉任务上“还不如三岁儿童”？这背后的原因有哪些？

研究数据显示，**人类准确率高达94.1%**，而最先进的模型，例如**Gemini 3 Pro Preview**，最高也只有**49.7%**的得分，大部分模型都在**12%到22%**之间。这一差距背后，主要原因包括：

视觉细节理解的困难：模型难以捕捉图片中微小的差异，例如拼图细节、物体轮廓或像素级差异，导致在细节辨别任务中频频出错。
空间推理不足：在三维结构理解和视角变换中，模型往往漏掉隐藏或遮挡的结构，有明显缺乏稳定的空间想象能力。
追踪轨迹的难题：模型在追踪运动路径和连线任务中，容易因交叉或复杂路径策略失误，导致偏离目标。
规律归纳的局限：在识别图形变换规律时，模型常常盯着表面属性（颜色、形状），而忽视深层的规律关系。

这些问题，归根结底都反映出目前**多模态模型**还缺乏**稳定的空间表征能力和细节理解能力**，与孩子们用手指点选、简单结论形成明显对比。

BabyVision如何进行测试？它的核心测评原则是什么？

**BabyVision**把视觉能力拆解成了4大类，共22个子任务：

细节辨识（8个子任务）：包括找不同、补全拼图、数相同图案等，强调**细微差异的识别能力**。
视觉追踪（5个子任务）：追随路径、线条、运动轨迹，如迷宫走法、连线任务，考验模型的**路径追踪能力**。
空间感知（5个子任务）：涉及三维结构理解、视角投影、折纸展开等，测试**空间想象和内部表征能力**。
视觉模式识别（4个子任务）：识别图形规律、几何变换、逻辑推理，考察模型的**模式归纳与逻辑理解能力**。

设计上的一个核心原则是：**严格控制语言依赖**。题目要求**只用视觉信息来得出答案**，否则就变成简单的文本推理，无法检验模型本身的“看懂”能力。这样一来，**模型在真正看懂图片时的能力**就被突显出来。

模型在**BabyVision**中的表现为何会差强人意？这些挑战根本原因是什么？

一些被总结的核心难题包括：

1. 非语言细节难以用语言表达

比如拼图补全题，选项微小的差别（像素级偏差、局部细节）难以用语言描述，模型在用文字“压缩”这些细节时，会丢失关键信息，导致对答案的误判。

2. 追线追踪的复杂性

人类凭直觉可以顺着线索追溯路径，而模型常用“上下左右”离散步骤，遇到交叉点就容易出错——就像在迷宫中迷失，“形式化”的追踪无法完美模拟人类自然的认知过程。

3. 空间想象力不足

模型难以理解三维物体在不同视角下的结构关系、隐藏部分、投影关系，表现出在复杂空间视觉任务上的“短板”。这也反映出在空间内部结构建模方面，现有模型的**稳定性和精度**仍有待提高。

4. 图形规律的推断难题

模型过度关注表面特征（颜色、形状），而忽视变化背后的规律（如旋转、镜像、变形）。在少量示例中抽象规则，再迁移到新图时，会出现“规则幻觉”，影响正确性。

**BabyVision-Gen**：尝试用“生成式作答”弥补模型缺陷

面对视觉推理的瓶颈，研究者提出用**“画、圈、连线、描轨迹”**等方式，让模型像孩子一样用图片作答。此方案被命名为**BabyVision-Gen**，它将原有题目中的**280道适合“生成式作答”的题**重新标注出，要求模型输出图像或视频，展示解题全过程。例如，用红线画出路径、标注轨迹，从而更直观地反映模型的空间理解和追踪能力。

实验中，像**Sora 2、Veo 3、Qwen-Image**这类生成模型在这些任务中的表现，逐渐展现出类似人的行为，能够绘制出轨迹、标记关键点，表现出对视觉推理的“直观理解”。

尽管如此，这一方法目前仍存在一定局限，包括生成图像的不稳定性和正确率的不足，但未来用“视觉操作+生成式推理”结合，有望弥补纯视觉模型的短板。

xbench：首个由投资机构主导的**多模态评测平台**

**xbench**由**红杉中国**在2025年5月推出，是全球首个由投资机构设计的多模态AI评测基准。它采用**双轨评估体系**：
- AGI Tracking：验证模型在**智能边界**，即能力的极限，追求**挑战性强、巧妙且区分度高的题目**，用于评估“未来AI潜力”。
- Profession-Aligned：把AI系统看作**“数字员工”**，在具体业务应用中考核操作效率与实用性，如科研、搜索、招聘、营销等场景。
除了**BabyVision**，xbench已发布包含**ScienceQA**（研究生水平学科知识）、**DeepSearch**（中文互联网深度搜索）、以及企业招聘和营销场景的评测集，旨在推动AI技术更贴近实际，避免“题海战术”的陷阱。

平台采用**持续维护、动态更新**的方式，每月跟踪模型表现，每季度优化评测内容，体现出“实时、客观、市场导向”的评估理念，为投资者把控技术突破的“阈值”。

**总结与感悟：**

总的来说，**BabyVision**的出现，揭示了当前多模态大模型在**视觉理解**方面的巨大短板，同时也推动了“多模态黑盒”向“可衡量、可操作”的方向发展。不断优化的评测机制，将引领行业走向更具**“看得懂”“会操作”**的人工智能，助力下一阶段的技术突破。

我认为：AI未来的发展，不能仅靠“外在的智慧”来迷惑人眼，更要像孩子一样用眼睛去感知，用手去试探，才能真正理解这个世界的复杂和精彩。当前的模型，距离这种“像孩子一样的理解能力”依然很远，但只有不断突破局限，才可能迎来真正的智“体”之变。

#AI发展

文章版权归作者所有，未经允许请勿转载。

告别看完就忘！用“知识点金手”+微信分类群，高效管理文章精华

AI前沿 # prompt # 微信分类群 # 文章精华

1年前

23,7410

如何应对AI信息焦虑？大模型从业者的自救指南

AI前沿 # AI # AI发展 # RAG

1年前

23,0890

AGI真的快来了吗？

AI前沿 # AGI # AI发展 # AI洞见

2个月前

6,0980

OpenAI联手TSMC和Broadcom：多元合作破解AI芯片短缺

AI前沿 # OpenAI合作 # 芯片短缺

1年前

26,4850

多模态评测新突破：BabyVision引发行业对AI视觉理解的深度思考

多模态评测新突破：BabyVision引发的行业思考

什么是BabyVision？它的核心目标和设计理念是什么？

为什么说目前最强多模态模型在纯视觉任务上“还不如三岁儿童”？这背后的原因有哪些？

BabyVision如何进行测试？它的核心测评原则是什么？

模型在BabyVision中的表现为何会差强人意？这些挑战根本原因是什么？

1. 非语言细节难以用语言表达

2. 追线追踪的复杂性

3. 空间想象力不足

4. 图形规律的推断难题

BabyVision-Gen：尝试用“生成式作答”弥补模型缺陷

xbench：首个由投资机构主导的多模态评测平台

总结与感悟：