多模态评测新突破:**BabyVision**引发的行业思考
什么是**BabyVision**?它的核心目标和设计理念是什么?
**BabyVision**由**红杉中国**联合**xbench**与**UniPat AI**共同发布,是一套专注于**多模态大模型视觉能力**的评测集。其核心目标在于量化**多模态模型在纯视觉任务中的表现**,特别是面对那些在语言描述上难以表达的细节。设计理念借鉴了“严格控制语言依赖”的原则,构建了由**22个子任务组成的四大类**测试,包括**细节辨别、视觉追踪、空间感知和模式识别**,意在检测模型**“当语言帮不上忙时,还能不能用‘眼睛’看懂”**。
为什么说目前最强多模态模型在纯视觉任务上**“还不如三岁儿童”**? 这背后的原因有哪些?
研究数据显示,**人类准确率高达94.1%**,而最先进的模型,例如**Gemini 3 Pro Preview**,最高也只有**49.7%**的得分,大部分模型都在**12%到22%**之间。这一差距背后,主要原因包括:
- 视觉细节理解的困难:模型难以捕捉图片中微小的差异,例如拼图细节、物体轮廓或像素级差异,导致在细节辨别任务中频频出错。
- 空间推理不足:在三维结构理解和视角变换中,模型往往漏掉隐藏或遮挡的结构,有明显缺乏稳定的空间想象能力。
- 追踪轨迹的难题:模型在追踪运动路径和连线任务中,容易因交叉或复杂路径策略失误,导致偏离目标。
- 规律归纳的局限:在识别图形变换规律时,模型常常盯着表面属性(颜色、形状),而忽视深层的规律关系。
这些问题,归根结底都反映出目前**多模态模型**还缺乏**稳定的空间表征能力和细节理解能力**,与孩子们用手指点选、简单结论形成明显对比。
**BabyVision**如何进行测试?它的核心测评原则是什么?
**BabyVision**把视觉能力拆解成了4大类,共22个子任务:
- 细节辨识(8个子任务):包括找不同、补全拼图、数相同图案等,强调**细微差异的识别能力**。
- 视觉追踪(5个子任务):追随路径、线条、运动轨迹,如迷宫走法、连线任务,考验模型的**路径追踪能力**。
- 空间感知(5个子任务):涉及三维结构理解、视角投影、折纸展开等,测试**空间想象和内部表征能力**。
- 视觉模式识别(4个子任务):识别图形规律、几何变换、逻辑推理,考察模型的**模式归纳与逻辑理解能力**。
设计上的一个核心原则是:**严格控制语言依赖**。题目要求**只用视觉信息来得出答案**,否则就变成简单的文本推理,无法检验模型本身的“看懂”能力。这样一来,**模型在真正看懂图片时的能力**就被突显出来。
模型在**BabyVision**中的表现为何会差强人意?这些挑战根本原因是什么?
一些被总结的核心难题包括:
1. 非语言细节难以用语言表达
比如拼图补全题,选项微小的差别(像素级偏差、局部细节)难以用语言描述,模型在用文字“压缩”这些细节时,会丢失关键信息,导致对答案的误判。
2. 追线追踪的复杂性
人类凭直觉可以顺着线索追溯路径,而模型常用“上下左右”离散步骤,遇到交叉点就容易出错——就像在迷宫中迷失,“形式化”的追踪无法完美模拟人类自然的认知过程。
3. 空间想象力不足
模型难以理解三维物体在不同视角下的结构关系、隐藏部分、投影关系,表现出在复杂空间视觉任务上的“短板”。这也反映出在空间内部结构建模方面,现有模型的**稳定性和精度**仍有待提高。
4. 图形规律的推断难题
模型过度关注表面特征(颜色、形状),而忽视变化背后的规律(如旋转、镜像、变形)。在少量示例中抽象规则,再迁移到新图时,会出现“规则幻觉”,影响正确性。
**BabyVision-Gen**:尝试用“生成式作答”弥补模型缺陷
面对视觉推理的瓶颈,研究者提出用**“画、圈、连线、描轨迹”**等方式,让模型像孩子一样用图片作答。此方案被命名为**BabyVision-Gen**,它将原有题目中的**280道适合“生成式作答”的题**重新标注出,要求模型输出图像或视频,展示解题全过程。例如,用红线画出路径、标注轨迹,从而更直观地反映模型的空间理解和追踪能力。
实验中,像**Sora 2、Veo 3、Qwen-Image**这类生成模型在这些任务中的表现,逐渐展现出类似人的行为,能够绘制出轨迹、标记关键点,表现出对视觉推理的“直观理解”。
尽管如此,这一方法目前仍存在一定局限,包括生成图像的不稳定性和正确率的不足,但未来用“视觉操作+生成式推理”结合,有望弥补纯视觉模型的短板。
xbench:首个由投资机构主导的**多模态评测平台**
**xbench**由**红杉中国**在2025年5月推出,是全球首个由投资机构设计的多模态AI评测基准。它采用**双轨评估体系**:
- AGI Tracking:验证模型在**智能边界**,即能力的极限,追求**挑战性强、巧妙且区分度高的题目**,用于评估“未来AI潜力”。
- Profession-Aligned:把AI系统看作**“数字员工”**,在具体业务应用中考核操作效率与实用性,如科研、搜索、招聘、营销等场景。
除了**BabyVision**,xbench已发布包含**ScienceQA**(研究生水平学科知识)、**DeepSearch**(中文互联网深度搜索)、以及企业招聘和营销场景的评测集,旨在推动AI技术更贴近实际,避免“题海战术”的陷阱。
平台采用**持续维护、动态更新**的方式,每月跟踪模型表现,每季度优化评测内容,体现出“实时、客观、市场导向”的评估理念,为投资者把控技术突破的“阈值”。
**总结与感悟:**
总的来说,**BabyVision**的出现,揭示了当前多模态大模型在**视觉理解**方面的巨大短板,同时也推动了“多模态黑盒”向“可衡量、可操作”的方向发展。不断优化的评测机制,将引领行业走向更具**“看得懂”“会操作”**的人工智能,助力下一阶段的技术突破。
我认为:AI未来的发展,不能仅靠“外在的智慧”来迷惑人眼,更要像孩子一样用眼睛去感知,用手去试探,才能真正理解这个世界的复杂和精彩。当前的模型,距离这种“像孩子一样的理解能力”依然很远,但只有不断突破局限,才可能迎来真正的智“体”之变。
#AI发展
© 版权声明
文章版权归作者所有,未经允许请勿转载。
