VisuLogic：一个评估多模态大语言模型视觉推理能力的基准测试

微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

VisuLogic：一个评估多模态大语言模型视觉推理能力的基准测试

作者：科技行者

2025-04-25 14:17

分享至：

想象一下，你正在参加一场智力测试。主考官给你看了一张图片，并要求你找出图案的规律，预测下一个图形会是什么样子。对我们人类来说，这种视觉推理任务虽然有难度，但通常还算可行——我们能够观察图案变化、识别规律，然后做出合理推测。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-04-25 14:17 • 科技行者

这项由中国科学技术大学、西安交通大学、上海人工智能实验室、商汤科技研究院和清华大学等机构合作完成的研究于2025年4月21日发布在arXiv预印本平台。该研究由Weiye Xu、Jiahao Wang、Weiyun Wang、Zhe Chen等人共同完成，论文链接为：https://arxiv.org/abs/2504.15279v1。

研究背景：为什么我们需要更好的视觉推理测试

但如果是人工智能系统呢？特别是那些号称能"看懂"图像并与人类交流的多模态大语言模型（MLLMs），它们真的具备纯粹的视觉推理能力吗？

上海人工智能实验室的研究团队发现，目前评估这些模型的视觉推理能力存在一个很大的问题：现有的测试过于依赖文本描述，让模型可以"走捷径"——它们只需将图像转化为文字描述，然后用语言推理能力来解决问题，而不是真正理解和分析图像本身的视觉信息。

举个简单的例子：想象一个拼图游戏，要求你把打乱的碎片重新拼回原样。如果有人直接告诉你每个碎片应该放在哪里，那你就不需要真正理解拼图图案本身了。类似地，当前的多模态模型测试往往允许模型通过语言描述来"作弊"，而不是真正测试它们的视觉理解能力。

为了解决这个问题，研究团队开发了一个名为VisuLogic的新基准测试，专门设计用来评估模型的纯视觉推理能力，而不是混合了视觉和语言的推理能力。

VisuLogic：一个纯粹的视觉推理挑战

VisuLogic是什么？简单来说，它是一个包含1,000个经过人工验证的视觉推理问题的数据集，这些问题跨越六个不同类别：数量推理、空间推理、位置推理、属性推理、风格推理和其他类型。

与其他测试不同，VisuLogic的问题被特意设计成难以用语言准确描述的形式。就像有些复杂的视觉模式，你能一眼看出规律，但却很难用语言精确地描述出来——这正是测试真正视觉理解能力的关键。

研究团队通过一个很有说服力的例子说明了VisuLogic的独特之处。他们展示了两个不同的问题：一个来自现有的MMMU测试集，另一个来自VisuLogic。在MMMU的问题中，即使是最先进的多模态模型也能提取关键的视觉细节，让纯语言模型（LLM）仅基于文本描述就能解答问题。但在VisuLogic的问题中，同样的模型在描述图像时却会遗漏关键的视觉线索（如对称性、旋转等），导致纯语言模型无法正确理解图像。

这个对比清晰地表明，VisuLogic真正测试的是模型的视觉推理能力，而不是语言推理能力。就像你需要自己观察拼图图案才能完成拼图，而不能仅仅依靠别人的口头指示。

数据集的创建：精心设计的视觉推理挑战

研究团队非常谨慎地构建了VisuLogic数据集。他们的过程包括三个关键阶段：数据收集、质量控制和详细分类。

首先，他们从符合相关许可和规定的公开在线资源中收集了所有问题。使用Playwright工具和自定义解析脚本系统地爬取原始网页内容，提取问题-答案对，然后清理噪音和不相关内容，最后将所有信息标准化为结构化格式。

在质量控制方面，他们采用了三阶段的数据验证程序：

图像验证：检查每个问题引用的图像是否存在且格式正确
重复删除：通过检测文本片段之间的词汇重叠和使用感知哈希（pHash）识别视觉相似的图像来消除冗余条目
人工检查：对每个剩余条目进行彻底的人工审核，确认其有效性

最后，他们将所有收集的数据分类为六个主要类别：

数量推理：关注图形元素（如点、线和角）数量的变化以及形状之间的算术关系
空间推理：要求从二维图形中重建三维形状、折叠或展开表面以及整合三维结构
位置推理：考察物体的平移、旋转和反射等变换
属性推理：涉及形状的内在属性，包括对称性（轴向或中心）、曲率以及开放度或封闭度的度量
风格推理：需要理解风格特征的变化，如叠加、减法以及形状相似性或差异性的评估
其他：包含不属于前述类别的问题，如涉及字母、字母数字符号或其他专业字符的问题

整个数据集经验证后包含1,000个单项选择题，正确答案选项分布均衡：A（23.1%）、B（26.7%）、C（25.2%）和D（25.0%）。

除了主测试集外，研究团队还提供了一个辅助训练集，包含4,296个问题-答案对，这些问题来自相同领域并经过相同的验证程序，确保与基准测试没有重叠。这个训练集的类别分布也与主测试集类似。

实验结果：人类vs机器的巨大差距

研究团队对VisuLogic进行了全面评估，测试了包括GPT-4o、Doubao-1.5-Vision-Pro、Gemini-2.0-Pro等在内的多个领先多模态模型，并将其与人类表现进行了对比。

结果令人惊讶：

当研究团队让纯语言模型（使用详细的图像描述代替原始图像）尝试解决VisuLogic问题时，即使是最先进的语言模型，如Doubao-1.5-Pro（26.6%）、Claude-3.7-Sonnet（25.9%）和Qwen2.5-72B-Instruct（28.0%），其准确率也仅略高于随机猜测的基线（24.9%）。这清晰地表明，仅依靠文本描述是不足以解决VisuLogic任务的。

更令人惊讶的是，即使是最先进的多模态大语言模型，包括GPT-4o（26.3%）、Doubao-1.5-Vision-Pro（28.1%）、Gemini-2.0-Pro-Exp（28.0%）和InternVL3-78B（27.7%），它们的表现也只是略高于随机猜测，远低于人类参与者达到的51.4%的准确率。

这个巨大的差距凸显了当前多模态模型在稳健视觉推理方面的挑战。就像一个只能按照口头说明而不能自己观察拼图的人很难完成复杂拼图一样，这些模型在真正需要理解视觉信息本身的任务上表现不佳。

深入分析：模型的视觉推理弱点

研究团队通过系统分析不同模型在六个不同推理类别上的错误分布，揭示了一些有趣的模式。

语言模型（LLMs）最难应对空间推理问题，这表明仅通过文本描述很难推断三维结构或空间变换。相比之下，它们在数量推理任务上表现相对较强，这表明数量关系更容易通过语言传达。

对于多模态模型（MLLMs）来说，风格推理问题是最大的障碍，错误率超过75%——比随机猜测（25%准确率）还要差。这一结果突显了当前MLLM架构在捕捉微妙视觉线索（如叠加、轮廓和形状变化）方面的根本局限性。

人类的错误模式形成了一个不同的聚类，与LLMs和MLLMs都不同。人类参与者在位置推理任务上的错误率低于30%，表明人类在基于位置的视觉推断方面表现强劲。相比之下，两类模型在位置推理上都很挣扎，这突显了人类和MLLMs在视觉-认知过程上的根本差异。

定性分析：理解模型失败的原因

通过对失败案例的定性分析，研究团队发现了几种主要的失败模式：

纯语言模型在依赖外部生成的图像描述时往往会遗漏多步逻辑推理所需的关键视觉细节——例如黑白点的数量、形状和进展模式。结果，它们的推理偏离了正确的解决方案，经常产生幻觉或不相关的回答。

多模态模型虽然能正确描述静态视觉内容，但在推断形状之间不断发展的关系时却失败了，转而诉诸于表面线索，如对象数量。虽然这些模型能识别单个形状并计数项目，但它们难以对元素间的关系进行推理，这限制了它们解决复杂视觉逻辑问题的能力。

就像一个人可能能看清拼图的每一块，但却无法理解它们如何组合在一起形成完整的图案。

强化学习：一个有希望的解决方向