最近,一项由清华大学孟浩豪、褚轩宇、杨乾睿等研究者领衔,联合腾讯混元X、斯坦福大学和卡内基梅隆大学团队共同完成的研究成果引起了学术界的广泛关注。这项名为"Bench-V:一个用于评估具有多模态输出的视觉推理模型的初步评估"的研究于2025年5月23日发布在arXiv预印本平台(arXiv:2505.16770v2),是对AI领域新发展的重要评估工作。
想象一下,当我们面对复杂问题时,常常会借助画图或绘制示意图来组织思路、辅助推理,从而找到解决方案。这种能力被认为是人类智能的一个重要标志。正如著名物理学家理查德·费曼所言:"我无法创造的东西,我就无法理解。"那么,人工智能模型是否也具备这种能力呢?它们能否学会通过绘图来思考和解决问题?
近年来,人工智能领域经历了两大趋势的融合:一方面是从单一模态的语言模型向能够处理和生成多种模态(如文本和图像)内容的全能模型(omni-models)演变,例如GPT-4o、Gemini和o3等;另一方面是从对话型模型向推理驱动型模型的转变。随着模型的输入和输出模态不断融合,评估这些先进模型的框架也需要相应地发展。
然而,现有的基准测试,如MMMU和MMLU,主要关注模型对多模态输入的理解能力和仅限文本的推理过程,而忽略了一个同样重要的方面:模型在视觉思维过程中生成多模态输出的能力。这正是Bench-V试图填补的空白。
一、Bench-V:评估多模态输出的新基准
Bench-V是什么?简单来说,它是一个专门设计用来评估模型"视觉必需推理"(vision-indispensable reasoning)能力的基准测试。研究团队精心挑选和设计了803个问题,涵盖数学、物理、计数和游戏等领域。与以往的基准测试不同,Bench-V中的问题需要模型在推理过程中产生多模态输出,特别是对图像进行修改,例如生成新图像或添加辅助线来支持推理过程。
想象一下,当你解决一个几何问题时,你可能需要在图上画一些辅助线才能找到解决方案;或者当你玩迷宫游戏时,你需要在迷宫上画出一条路径才能确定是否存在可行解。Bench-V就是测试AI模型是否具备类似的能力。
研究团队设计了一个非常直观的例子来说明Bench-V的特点:假设有一个问题问"将图像中的点按顺序连接起来会形成什么动物?"人类会自然而然地用笔在点之间画线,然后识别出形成的图案是狮子而不是狐狸。Bench-V正是测试AI模型是否也能完成这样的任务。
二、数据收集和统计分析
Bench-V的开发面临的主要挑战是设计和收集能够评估模型多模态输出能力的问题。为了构建Bench-V,研究团队遵循的原则是:问题的解决过程应该涉及创建新的视觉内容,如创建图像或修改现有图像。
在数学领域,Bench-V主要关注几何和图论问题,包括变换几何、平面几何、立体几何等。例如,变换几何问题要求模型绘制出应用平移、反射和旋转后的结果图形;平面几何问题评估模型是否能构建适当的辅助线来辅助推理;立体几何任务评估模型能否根据特定规则从2D组件组装3D形状,并在回答问题前绘制结果实体。
在物理领域,Bench-V主要关注光学、力学、电磁学和热力学。研究团队特别选择了那些需要视觉推理的问题。例如,光学任务强调几何光学,要求模型追踪涉及反射、折射和衍射的光线轨迹;力学包括静力学、运动学和动力学,涉及复杂的物理约束,模型必须解释和构建几何关系,使用自由体图和运动轨迹来分析力的相互作用和平衡条件。
在计数问题方面,Bench-V包含的问题远比简单的"数一数图片中有几个人"复杂。它可分为三类:首先,根据描述绘制几何形状或在图像中连接线条,然后回答如"有多少个三角形"的问题;其次,包含大量目标和混乱背景的图像,解决这类问题需要模型仔细检查图像,标记已计数的目标,然后推理得出总数;第三,需要理解空间关系和想象能力的问题,模型需要在头脑中操作或移动3D对象,并想象移动后的状态。
在游戏方面,Bench-V主要关注需要在视觉推理过程中产生多模态输出的游戏类型:连点成线游戏要求模型连接一系列点以揭示图像并识别图像中的对象;迷宫游戏要求模型追踪穿过迷宫的正确路径;飞镖与气球、黄金矿工游戏要求模型精确绘制飞镖和钩子的轨迹,并确定它们与目标物体的交点;拼图游戏涉及移动不同的片段以完成完整的拼图;球与砖块游戏要求绘制球的轨迹,球可能会与墙壁碰撞并多次反弹。
研究团队对Bench-V进行了统计分析,结果显示该基准测试包含803个问题,其中176个数学问题,157个物理问题,195个计数问题和275个游戏相关问题。这些问题中有356个多选题和447个开放式问题。虽然Bench-V主要关注多模态输出而非输入,但它仍包含了40个仅文本输入和763个多模态输入的问题。
三、实验评估与分析
研究团队在Bench-V上对多种开源和闭源的多模态大语言模型(MLLMs)和全能模型进行了评估,包括GPT-4o、Gemini、Qwen2.5VL、Claude3.5、DeepSeek-VL2等。所有评估都采用零样本设置,并使用了统一的"以LLM为评判者"框架,评判模型为GPT-4o。
实验结果令人惊讶:即使是表现最好的模型,即OpenAI的o3,在Bench-V上的准确率也只有25.8%,远低于人类专家82.3%的成绩。这一巨大差距突显了当前模型在多模态输出视觉推理方面的局限性。
研究团队还将Bench-V与其他基准测试(MMLU、MMMU)进行了比较,以评估多模态输出能力的要求。结果显示,无论是从人类专家还是模型的角度来看,Bench-V都对多模态输出提出了显著更高的要求。
进一步分析实验结果,研究团队得出了几个关键发现:
首先,如果模型(如InternVL或Qwen-VL系列)缺乏多模态思维链(M-CoT),仅仅增加模型规模并不能有效解决视觉必需推理的挑战。数据显示,将Qwen2.5VL模型的参数规模从7B增加到72B,在Bench-V上的性能提升并不明显。这表明,仅靠规模扩展可能不足以解决多模态输出在视觉推理中的挑战。研究团队推测,可能需要探索新的范式,如多模态思维链或基于代理的推理框架,才能解决视觉必需的复杂问题。
其次,当前基础模型在生成多模态输出的视觉推理方面仍远远落后于人类专家的表现。即使是表现最好的o3模型,在Bench-V上也只达到了25.8%的准确率,与人类专家82.3%的成绩相差甚远。这一巨大差距凸显了当前基础模型在处理需要精确多模态输出的视觉推理任务时的局限性。
第三,人类专家和模型解决问题的方法不一致。研究团队发现,虽然模型在数学问题上表现较好,但这并不一定表明它们已经学会了多模态推理。相反,模型往往将某些几何问题转换为代数问题,然后通过文本推理来解决。而人类专家则倾向于使用几何解法。这突显了当前模型表现出的智能与人类智能之间的根本差异。
研究团队还对o3的一个正确案例和一个错误案例进行了可视化分析。在平面几何问题中,虽然o3给出了正确答案,但其解决方案是基于建立坐标系的代数方法,而非人类通常采用的几何方法。这表明模型倾向于在两种方法都可用时,选择基于文本的代数推理而非多模态几何推理。这表明数学性能的提高并不一定反映出多模态推理能力的真正进步,而可能表明模型已经学会了某种"多模态推理捷径"。
在游戏类别的连点成线任务中,o3未能生成正确答案。分析显示,错误主要源于o3仅尝试描述图中的点,而非按照问题要求实际连接它们。研究团队的分析表明,大多数模型失败都是由于这种局限性造成的。
四、研究意义与展望
Bench-V的提出填补了现有基准测试中的一个重要空白:评估模型在视觉推理过程中生成多模态输出的能力。这对于全能推理模型的发展具有重要意义。
研究结果表明,即使是最先进的模型在处理需要多模态输出的视觉推理任务时也面临巨大挑战。即使是表现最好的o3模型,其准确率仍远低于人类专家,这表明在这一领域仍有很大的改进空间。
此外,该研究还揭示了当前模型与人类专家在解决问题方法上的差异,这为未来研究提供了有价值的洞察。
展望未来,研究团队希望基础模型能朝着全能推理模型的方向发展,并在Bench-V上取得更好的表现。他们还计划从多模态思维链(M-CoT)和代理的角度改进基础模型。
总的来说,这项研究不仅提供了一个新的基准测试来评估模型的多模态输出能力,还揭示了当前AI模型在这一领域面临的挑战和局限性,为未来研究指明了方向。对于普通人来说,这意味着虽然当前的AI模型在某些任务上表现出色,但在需要像人类一样"边画边思考"的场景中,它们仍有很长的路要走。当前的AI还不能像人类那样自然地利用绘图作为思考工具,这也提醒我们,真正的人工智能仍在不断发展完善中。
好文章,需要你的鼓励
这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。
复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。
斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。
这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。