o3绞尽脑汁仅答对40%的题目，开源模型基本乱猜？MMSI-Bench：多图空间智能试金石

新闻动态 | 2025-06-25 01:07

AI 能看图，也能讲故事，但能理解"物体在哪""怎么动"吗？

空间智能，正是大模型走向具身智能的关键拼图。

面对 1000 道多图推理题，开源大模型集体失守——准确率不到 30%，甚至不如瞎猜！就连最强的 OpenAI o3，也只答对了 41%。

这一专为多图像空间智能设计的MMSI-Bench由上海人工智能实验室、香港中文大学、浙江大学、清华大学、上海交通大学、香港大学以及北京师范大学的研究者们共同完成。

多图像空间智能 VQA 基准测试

MLLM 在连接语言视觉、理解物理世界方面进展飞速，是通往具身 AGI 的关键。其中，空间智能（即理解物体位置、运动等空间关系的能力）至关重要，是自动驾驶、机器人导航与操作等应用的基础。

然而，当前评估 MLLM 空间智能普遍存在一些问题：

单图像局限

多数仅考察单图像内的简单关系。

低估真实世界复杂性

真实空间理解需跨多图像追踪、关联实体。

多图像覆盖不足

现有少数多图像基准对空间智能的覆盖既不全面也不深入。

模板化与合成数据

依赖模板或合成场景限制了问题的多样性与真实性。

因此，缺乏能检验真实多图像推理的基准，就无法可靠衡量和提升 MLLM 的空间认知。为此，MMSI-Bench 的提出正是为了弥补这一评测空白。

MMSI-Bench 是一个用于评估 MLLM 多图像空间推理能力的 VQA 基准，设计过程中重点考虑了空间理解的关键要素和数据质量的可靠性。

核心理念：人工主导的样本构建

MMSI-Bench 采用完全以人为中心的设计。六位资深 3D 视觉研究员投入超 300 小时，从 12 万余张图像中精选并构建了 1000 个高质量问答对。

每个问题均极具挑战、答案无歧义，且必须整合多图像信息解答。问题配有精心设计的干扰项和详尽的步骤化标准推理过程，并经第二标注员严格审核，确保质量。

全面的任务分类：系统评估空间推理维度

为系统评估多图像空间推理，MMSI-Bench 围绕相机 / 智能体、物体、区域三个基本空间元素及其位置关系、属性、运动状态构建了全面任务分类。共定义 10 种基础空间推理任务和 1 种多步推理（MSR）类别：

位置关系：相机 - 相机、相机 - 物体、相机 - 区域、物体 - 物体、物体 - 区域、区域 - 区域。

属性：测量（长度、大小等）、外观（形状等）。

运动：相机运动、物体运动。

多步推理 ( MSR ) ：整合基础类型进行复杂顺序推理。

除 MSR 外，其他类别问题均基于两张图像，专注核心的多图像整合能力。

多样化的数据来源：覆盖真实世界场景

为确保评估的全面性和真实性，MMSI-Bench 图像全部源于真实的、多样化的场景数据集，包括 ScanNet，Matterport3D（室内 3D 场景），nuScenes，Waymo（自动驾驶），AgiBot-World（机器人），DAVIS 2017（视频物体分割），Ego4D（第一人称视角视频）及 DTU（局部场景重建）。这些丰富数据源使 MMSI-Bench 能构建覆盖广泛真实世界场景的问答对。

实验结果揭示 MLLM 短板

作者在 MMSI-Bench 上对 34 个广泛使用的 MLLM（包括商业模型如 o3，GPT-4.5，GPT-4o 等，以及开源模型如 Qwen2.5-VL，InternVL 系列等）进行了全面评估。

主要发现包括：

MLLM 在多图像空间推理上举步维艰

即便是最先进的 MLLM 也表现出显著局限。多数模型平均分仅略高于 25% 的随机猜测。表现最佳的商业模型 OpenAI o3 准确率仅 41.0%，而人类高达 97.2%，差距超 56%，凸显了 MMSI-Bench 的挑战性。"思考模式"等策略提升有限，"盲眼 GPT-4o "（无图像输入）准确率近乎随机，证明了任务对真实视觉空间推理的依赖。

先进开源模型仍落后于商业模型

表现最佳的开源模型 Qwen2.5-VL-72B 平均准确率为 30.7%，明显落后于顶尖商业模型。

多步推理和相机运动理解是重灾区

多数模型在 MSR 任务上性能低于单步任务平均水平。尤其开源模型在相机运动任务上表现不佳，暗示 MLLM 理解自身运动的能力堪忧。

模型规模扩大增益有限

同系列模型增加参数带来的性能提升有限（如 Qwen2.5-VL-72B 仅比 32B 高 3%）。这表明数据质量和多样性可能是当前提升复杂空间推理能力的主要瓶颈，而非模型规模。

提示工程效果有限

语言提示（如 Zero-Shot CoT）和视觉提示（如 PATS 匹配）对性能提升甚微，甚至有负面影响，佐证了模型基础空间理解能力的缺失。

为探究 MLLM 在多图像空间推理上的瓶颈，作者对代表性模型（GPT-4o）的推理过程进行了细致的人工分析，归纳出四种主要错误类型：

定位错误 ( Grounding errors ) ：未能正确识别或定位图像中的关键物体或细节。

重叠匹配与场景重建错误 ( Overlap-matching and scene-reconstruction errors ) ：无法识别和匹配不同图像间的对应点，或难以基于此重建连贯场景。此为各类模型中最常见的错误。

情境转换推理错误 ( Situation-transformation reasoning errors ) ：在不同参考对象或相对 / 绝对方向间进行空间方向推理时出错。

空间逻辑错误 ( Spatial-logic errors ) ：纯粹空间逻辑推理缺陷，如幻觉、错误应用传递性或选错参照物。

这些错误分类清晰指出了当前 MLLM 在空间智能方面的具体短板。

MMSI-Bench 每个问题均附带高质量的人类标注推理过程，基于此，作者开发了一套自动化的错误分析流程，以高效、规模化地诊断模型失败原因。

该流程利用强大语言模型（如 GPT-4o）作为评估器，结合基准问题、图像、标准答案及 MMSI-Bench 提供的人类标注参考推理，判断待评估模型推理过程的正确性，并从上述四种错误类型中识别关键错误。

此自动化错误分析流程的价值：

有效性与标注的重要性：提供人类标注推理步骤时，自动化分析与人类专家判断的匹配度达 71.8%（若仅提供标准答案则降至 53.6%），凸显高质量标注对可靠自动化错误分析的关键作用。

规模化诊断能力：可对众多模型在全部 MMSI-Bench 问题上进行系统性错误归因，为模型改进指明方向。

关注"过程正确"：即便答案正确，推理过程也可能存在严重缺陷，强调了评估推理过程本身的重要性。

通过人工洞察与自动化工具的结合，MMSI-Bench 不仅衡量模型表现，更深入探究失败原因，为推动 MLLM 空间智能发展提供有力支持。

总结与展望

目前已有多个团队在打造面向多模态大模型（MLLM）的空间智能评测，而 MMSI-Bench 具备以下特点：

专注多图像空间智能：十个基础任务都基于两张图片，进阶多步推理任务会用到更多图片。

高质量：所有题目均由人工精心设计：从选图、出题，到干扰项设置与逐步推理标注，全流程把控。

贴近真实场景：图片来自自动驾驶、机器人操作、场景扫描等真实环境；题目关注真实场景的理解与推理。没有使用任何合成数据或者不贴合真实场景的问题。

评测全面且有挑战：研究者评测了 34 个模型（几乎涵盖所有受众广的闭源和开源模型），发现模型与人类表现仍有巨大差距，多数开源模型仅相当于随机猜测。这可能是目前模型 - 人类差距最大的基准评测。

完整推理过程：每个样本都附带人类标注的推理流程，可解释答案正确性，也便于自动化定位模型错误。

MMSI-Bench 作为专为多图像空间智能设计的挑战性综合基准，通过对 34 个顶尖 MLLM 的评估，清晰揭示了其与人类水平的巨大鸿沟。希望 MMSI-Bench 能成为社区宝贵资源，推动开发空间感知更强、更鲁棒的多模态 AI 系统，加速通往真正理解并与物理世界交互的 AGI。

项目主页： https://runsenxu.com/projects/MMSI_Bench

ArXiv 论文： https://arxiv.org/abs/2505.23764

Hugging Face 数据集：https://huggingface.co/datasets/RunsenXu/MMSI-Bench

GitHub 代码库： https://github.com/OpenRobotLab/MMSI-Bench

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

� � 点亮星标 � �

科技前沿进展每日见

上一篇：秦皇岛海葬服务价格

下一篇：张雪峰谈文科最好专业: 这些“金饭碗”让你赢在起跑线!