这项由上海人工智能实验室联合中科大、西安交大、清华大学等多家机构共同完成的研究发表于2025年4月,论文作者包括许伟烨、王嘉昊、王维云、陈喆等多位研究者。感兴趣的读者可以通过论文网站 https://visulogic-benchmark.github.io/VisuLogic 了解更多详细信息。
人工智能在很多方面已经超越了人类,比如下棋、翻译、甚至写诗,但在一个看似简单的能力上却屡屡碰壁——那就是像人类一样"看图说话"并进行逻辑推理。你可能会疑惑,现在的AI不是已经能识别图片,甚至能描述图片内容了吗?确实如此,但这里的关键区别在于,AI能否真正"理解"图片中的逻辑关系,而不仅仅是描述看到的内容。
研究团队发现了一个有趣的现象:当前最先进的多模态大语言模型(就是那些既能处理文字又能处理图片的AI)在面对需要纯视觉推理的问题时,往往采用了一种"投机取巧"的方法。它们会先将图片转换成文字描述,然后基于这些文字进行推理,而不是直接从视觉信息中进行逻辑推演。这就好比一个人看到一道几何题,不是直接观察图形找规律,而是先把图形用文字详细描述一遍,然后基于这些文字描述来解题。
问题在于,这种方法在某些情况下是行得通的,但在真正需要视觉逻辑推理的场景中就会暴露出致命缺陷。研究团队通过一个巧妙的实验证明了这一点:他们让最先进的AI模型GPT-4o来描述一些需要视觉推理的图片,然后让纯文本AI来基于这些描述解题。结果发现,即使是最详细的文字描述也会丢失关键的视觉信息,比如对称性、旋转关系、空间排列等,这些恰恰是视觉推理中最重要的元素。
为了彻底解决这个问题,研究团队开发了一个名为VisuLogic的新基准测试。这个测试的设计理念非常独特——它专门挑选那些很难用文字准确描述,但人眼一看就能发现规律的视觉推理题目。这些题目涵盖了六个不同的类别,每一类都考验AI的不同视觉推理能力。
在数量推理类别中,AI需要理解图形元素数量的变化规律。比如,一系列图形中黑点的数量按照某种规律递增或递减,AI需要预测下一个图形应该有多少个黑点。这看似简单,但实际上需要AI能够准确识别和计数图形中的元素,并理解数字序列的逻辑关系。
空间推理类别更加复杂,它要求AI具备三维思维能力。想象你看到一个立方体的展开图,你需要判断这个展开图能否折叠成特定的立方体。这类问题对人类来说相对容易,因为我们天生具备空间想象能力,但对AI来说却是巨大的挑战,因为它需要在脑海中"旋转"和"折叠"这些图形。
位置推理类别考验的是AI对图形变换的理解。图形可能经历平移、旋转、翻转等变换,AI需要识别这些变换的规律并预测后续的变化。这就像看魔方复原的过程,你需要理解每一步操作对整体结构的影响。
属性推理类别关注的是图形的内在特性,比如对称性、开放性或封闭性等。一个图形可能在形状上完全不同,但在对称性上具有相同的特征。AI需要能够抽象出这些深层的属性关系。
风格推理类别涉及图形的表现形式,比如叠加、减法、轮廓变化等。同一个基本形状可能以不同的风格呈现,AI需要识别出这些风格变化的规律。
最后的其他类别包含了各种特殊符号和字母数字等元素,这些往往涉及更复杂的逻辑关系和文化背景知识。
整个VisuLogic基准包含了1000道经过人工验证的题目,每道题都有四个选项,随机猜测的准确率约为25%。研究团队还邀请了100名理工科研究生作为对照组,他们的平均准确率达到了51.4%。这个数字为AI模型的表现提供了一个重要的参考标准。
当研究团队用VisuLogic测试当前最先进的AI模型时,结果令人震惊。包括GPT-4o、Gemini-2.0-Pro等在内的顶级模型,准确率普遍在26-28%之间,仅比随机猜测稍好一点,与人类表现相比差距巨大。这个结果清楚地表明,当前的AI在真正的视觉推理方面还存在严重不足。
更有趣的是,当研究团队使用不同的提示策略时,发现了一些意外的结果。传统上,给AI提供思维链(Chain-of-Thought)提示能够显著提升其推理能力,但在视觉推理任务中,这种方法的效果微乎其微。大多数模型的准确率提升不到1个百分点,这进一步证明了视觉推理与纯文本推理的本质区别。
然而,当研究团队提供解题提示时,AI的表现有了明显改善。比如GPT-4o的准确率从26.3%提升到了30.0%,Claude-3.7-Sonnet更是从24.8%提升到了33.5%。但即使有了提示,AI的表现仍然远逊于人类。有趣的是,人类在有提示的情况下表现更加出色,准确率从51.4%提升到了83.6%,这说明提示策略对人类和AI都有帮助,但人类从中受益更多。
为了进一步提升AI的视觉推理能力,研究团队尝试了强化学习的方法。他们在4296道补充训练题上对两个开源模型进行了强化学习训练。结果显示,Qwen2.5-VL-7B模型的准确率从25.5%提升到了28.0%,而InternVL2.5-38B模型更是从25.5%大幅提升到了31.1%,成为了当前表现最好的模型。
这种改进虽然令人鼓舞,但也揭示了强化学习训练的巨大潜力。在训练过程中,研究团队设计了一套基于规则的奖励系统,不仅要求模型给出正确答案,还要求模型的输出格式规范,推理过程清晰。通过这种方式,AI学会了更加系统和深入的视觉分析方法。
研究团队深入分析了不同类型题目的错误分布,发现了一些有趣的模式。对于纯文本模型(通过图片描述进行推理),空间推理是最大的难点,错误率最高。这是可以理解的,因为三维空间关系很难用文字准确描述。相比之下,这些模型在数量推理方面表现相对较好,因为数字关系更容易用语言表达。
对于多模态模型,风格推理成为了最大的挑战,错误率超过75%。这类问题涉及到图形的细微变化和抽象特征,需要模型具备高度敏感的视觉感知能力。而人类的错误分布与AI截然不同,人类在位置推理方面表现最佳,错误率低于30%,这反映了人类天生的空间认知优势。
这项研究的意义远不止于一个新的测试基准。它揭示了当前AI发展中的一个关键盲点:我们在追求语言理解和生成能力的同时,可能忽视了视觉推理这一同样重要的智能组成部分。在现实应用中,许多任务都需要结合视觉感知和逻辑推理,比如自动驾驶中的路况判断、医疗影像分析、工业质检等。
研究团队还发现,模型规模的增大确实能带来性能提升,但提升幅度相对有限。这暗示着仅仅通过扩大模型规模可能无法根本解决视觉推理问题,需要在架构设计和训练方法上寻求突破。
从训练数据的角度来看,当前的多模态模型主要在图文配对数据上进行训练,这些数据虽然有助于模型学习图像和文本的对应关系,但可能不足以培养深层的视觉推理能力。未来的研究可能需要专门设计包含视觉推理任务的训练数据。
强化学习在这项研究中展现出的潜力也值得关注。与传统的监督学习不同,强化学习允许模型通过试错来学习,这可能更适合培养推理能力。研究团队使用的RLOO算法在保持较低计算成本的同时,实现了显著的性能提升。
展望未来,这项研究为AI视觉推理能力的发展指明了方向。研究团队已经开源了所有的代码、数据和基线模型,为后续研究提供了宝贵的资源。他们希望VisuLogic能够成为推动视觉推理研究的重要工具,就像ImageNet对计算机视觉发展的贡献一样。
说到底,这项研究提醒我们,真正的人工智能不应该仅仅是一个高级的文字处理器,而应该具备像人类一样观察世界、理解视觉信息并进行逻辑推理的能力。虽然当前的AI在这方面还有很大差距,但这项研究为缩小这一差距提供了清晰的路线图和实用的工具。随着更多研究者的参与和新方法的涌现,我们有理由相信,AI的视觉推理能力将会逐步提升,最终达到甚至超越人类的水平。
归根结底,VisuLogic不仅仅是一个测试基准,更是对AI发展方向的一次重要反思。它告诉我们,在追求AI通用性的道路上,视觉推理是一个不可忽视的重要环节。只有当AI真正掌握了这项能力,我们才能说它向真正的智能又迈进了一大步。
Q&A
Q1:VisuLogic是什么?它和普通的AI视觉测试有什么不同?
A:VisuLogic是专门测试AI视觉推理能力的基准测试,包含1000道题目。与普通视觉测试不同,它专门选择那些很难用文字描述但人眼能轻易发现规律的题目,避免AI通过"文字描述→推理"的捷径来解题,真正考验AI的纯视觉逻辑推理能力。
Q2:当前最先进的AI在视觉推理方面表现如何?
A:表现相当糟糕。包括GPT-4o、Gemini等顶级AI模型在VisuLogic上的准确率仅为26-28%,只比随机猜测(25%)稍好,远低于人类的51.4%。这说明当前AI在真正的视觉推理方面存在严重不足。
Q3:强化学习训练能提升AI的视觉推理能力吗?
A:是的,效果明显。研究团队通过强化学习训练,将InternVL2.5-38B模型的准确率从25.5%提升到31.1%,成为当前表现最好的模型。这表明强化学习是提升AI视觉推理能力的有效途径,但距离人类水平仍有差距。
好文章,需要你的鼓励
北航团队推出Easy Dataset框架,通过直观的图形界面和角色驱动的生成方法,让普通用户能够轻松将各种格式文档转换为高质量的AI训练数据。该工具集成了智能文档解析、混合分块策略和个性化问答生成功能,在金融领域实验中显著提升了AI模型的专业表现,同时保持通用能力。项目已开源并获得超过9000颗GitHub星标。
卢森堡计算机事件响应中心开发的VLAI系统,基于RoBERTa模型,能够通过阅读漏洞描述自动判断危险等级。该系统在60万个真实漏洞数据上训练,准确率达82.8%,已集成到实际安全服务中。研究采用开源方式,为网络安全专家提供快速漏洞风险评估工具,有效解决了官方评分发布前的安全决策难题。
中国电信研究院等机构联合开发的xVerify系统,专门解决复杂AI推理模型的评估难题。该系统能够准确判断包含多步推理过程的AI输出,在准确率和效率方面均超越现有方法,为AI评估领域提供了重要突破。
昆仑公司Skywork AI团队开发的Skywork R1V模型,成功将文本推理能力扩展到视觉领域。该模型仅用380亿参数就实现了与大型闭源模型相媲美的多模态推理性能,在MMMU测试中达到69.0分,在MathVista获得67.5分,同时保持了优秀的文本推理能力。研究团队采用高效的多模态迁移、混合优化框架和自适应推理链蒸馏三项核心技术,成功实现了视觉理解与逻辑推理的完美结合,并将所有代码和权重完全开源。