多模态评测新突破:BabyVision引发行业对AI视觉理解的深度思考

AI前沿3小时前发布 yizz
219 0 0

多模态评测新突破:**BabyVision**引发的行业思考

什么是**BabyVision**?它的核心目标和设计理念是什么?

**BabyVision**由**红杉中国**联合**xbench**与**UniPat AI**共同发布,是一套专注于**多模态大模型视觉能力**的评测集。其核心目标在于量化**多模态模型在纯视觉任务中的表现**,特别是面对那些在语言描述上难以表达的细节。设计理念借鉴了“严格控制语言依赖”的原则,构建了由**22个子任务组成的四大类**测试,包括**细节辨别、视觉追踪、空间感知和模式识别**,意在检测模型**“当语言帮不上忙时,还能不能用‘眼睛’看懂”**。

为什么说目前最强多模态模型在纯视觉任务上**“还不如三岁儿童”**? 这背后的原因有哪些?

研究数据显示,**人类准确率高达94.1%**,而最先进的模型,例如**Gemini 3 Pro Preview**,最高也只有**49.7%**的得分,大部分模型都在**12%到22%**之间。这一差距背后,主要原因包括:

  • 视觉细节理解的困难:模型难以捕捉图片中微小的差异,例如拼图细节、物体轮廓或像素级差异,导致在细节辨别任务中频频出错。
  • 空间推理不足:在三维结构理解和视角变换中,模型往往漏掉隐藏或遮挡的结构,有明显缺乏稳定的空间想象能力。
  • 追踪轨迹的难题:模型在追踪运动路径和连线任务中,容易因交叉或复杂路径策略失误,导致偏离目标。
  • 规律归纳的局限:在识别图形变换规律时,模型常常盯着表面属性(颜色、形状),而忽视深层的规律关系。

这些问题,归根结底都反映出目前**多模态模型**还缺乏**稳定的空间表征能力和细节理解能力**,与孩子们用手指点选、简单结论形成明显对比。

**BabyVision**如何进行测试?它的核心测评原则是什么?

**BabyVision**把视觉能力拆解成了4大类,共22个子任务:

  1. 细节辨识(8个子任务):包括找不同、补全拼图、数相同图案等,强调**细微差异的识别能力**。
  2. 视觉追踪(5个子任务):追随路径、线条、运动轨迹,如迷宫走法、连线任务,考验模型的**路径追踪能力**。
  3. 空间感知(5个子任务):涉及三维结构理解、视角投影、折纸展开等,测试**空间想象和内部表征能力**。
  4. 视觉模式识别(4个子任务):识别图形规律、几何变换、逻辑推理,考察模型的**模式归纳与逻辑理解能力**。

    设计上的一个核心原则是:**严格控制语言依赖**。题目要求**只用视觉信息来得出答案**,否则就变成简单的文本推理,无法检验模型本身的“看懂”能力。这样一来,**模型在真正看懂图片时的能力**就被突显出来。

    模型在**BabyVision**中的表现为何会差强人意?这些挑战根本原因是什么?

    一些被总结的核心难题包括:

    1. 非语言细节难以用语言表达

    比如拼图补全题,选项微小的差别(像素级偏差、局部细节)难以用语言描述,模型在用文字“压缩”这些细节时,会丢失关键信息,导致对答案的误判。

    2. 追线追踪的复杂性

    人类凭直觉可以顺着线索追溯路径,而模型常用“上下左右”离散步骤,遇到交叉点就容易出错——就像在迷宫中迷失,“形式化”的追踪无法完美模拟人类自然的认知过程。

    3. 空间想象力不足

    模型难以理解三维物体在不同视角下的结构关系、隐藏部分、投影关系,表现出在复杂空间视觉任务上的“短板”。这也反映出在空间内部结构建模方面,现有模型的**稳定性和精度**仍有待提高。

    4. 图形规律的推断难题

    模型过度关注表面特征(颜色、形状),而忽视变化背后的规律(如旋转、镜像、变形)。在少量示例中抽象规则,再迁移到新图时,会出现“规则幻觉”,影响正确性。

    **BabyVision-Gen**:尝试用“生成式作答”弥补模型缺陷

    面对视觉推理的瓶颈,研究者提出用**“画、圈、连线、描轨迹”**等方式,让模型像孩子一样用图片作答。此方案被命名为**BabyVision-Gen**,它将原有题目中的**280道适合“生成式作答”的题**重新标注出,要求模型输出图像或视频,展示解题全过程。例如,用红线画出路径、标注轨迹,从而更直观地反映模型的空间理解和追踪能力。

    实验中,像**Sora 2、Veo 3、Qwen-Image**这类生成模型在这些任务中的表现,逐渐展现出类似人的行为,能够绘制出轨迹、标记关键点,表现出对视觉推理的“直观理解”。

    尽管如此,这一方法目前仍存在一定局限,包括生成图像的不稳定性和正确率的不足,但未来用“视觉操作+生成式推理”结合,有望弥补纯视觉模型的短板。

    xbench:首个由投资机构主导的**多模态评测平台**

    **xbench**由**红杉中国**在2025年5月推出,是全球首个由投资机构设计的多模态AI评测基准。它采用**双轨评估体系**:

    • AGI Tracking:验证模型在**智能边界**,即能力的极限,追求**挑战性强、巧妙且区分度高的题目**,用于评估“未来AI潜力”。
    • Profession-Aligned:把AI系统看作**“数字员工”**,在具体业务应用中考核操作效率与实用性,如科研、搜索、招聘、营销等场景。

    除了**BabyVision**,xbench已发布包含**ScienceQA**(研究生水平学科知识)、**DeepSearch**(中文互联网深度搜索)、以及企业招聘和营销场景的评测集,旨在推动AI技术更贴近实际,避免“题海战术”的陷阱。

    平台采用**持续维护、动态更新**的方式,每月跟踪模型表现,每季度优化评测内容,体现出“实时、客观、市场导向”的评估理念,为投资者把控技术突破的“阈值”。

    **总结与感悟:**

    总的来说,**BabyVision**的出现,揭示了当前多模态大模型在**视觉理解**方面的巨大短板,同时也推动了“多模态黑盒”向“可衡量、可操作”的方向发展。不断优化的评测机制,将引领行业走向更具**“看得懂”“会操作”**的人工智能,助力下一阶段的技术突破。

    我认为:AI未来的发展,不能仅靠“外在的智慧”来迷惑人眼,更要像孩子一样用眼睛去感知,用手去试探,才能真正理解这个世界的复杂和精彩。当前的模型,距离这种“像孩子一样的理解能力”依然很远,但只有不断突破局限,才可能迎来真正的智“体”之变。

    #AI发展

© 版权声明

相关文章