微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 图表博物馆:测试大型视觉-语言模型的视觉推理能力——德克萨斯大学奥斯汀分校团队开创性研究

图表博物馆:测试大型视觉-语言模型的视觉推理能力——德克萨斯大学奥斯汀分校团队开创性研究

2025-05-22 08:16
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-22 08:16 科技行者

在日新月异的人工智能领域,视觉-语言模型(Vision-Language Models,简称VLMs)正变得越来越强大,它们能同时理解图像和文本,就像我们人类一样。然而,这些模型在理解图表方面存在一个有趣的不平衡现象,这正是德克萨斯大学奥斯汀分校的研究团队所关注的焦点。这项由Liyan Tang、Grace Kim、Xinyu Zhao等多位研究者共同完成的研究于2025年5月19日发表在arXiv预印本平台上(arXiv:2505.13444v1),感兴趣的读者可通过他们官方网站https://chartmuseum-leaderboard.github.io了解更多内容。

想象一下,你给一个智能助手看一张复杂的统计图表,然后问:"哪个国家的女性毕业生人数与男性毕业生人数最接近?"对于人类来说,我们会直观地寻找图表中最"平衡"的部分,但对AI来说,这种看似简单的视觉判断却可能异常困难。为什么呢?这就是本研究要探讨的核心问题。

目前的视觉-语言模型就像是一个擅长阅读和分析文字的人,但当面对需要"看图说话"的任务时,它们往往显得力不从心。这些模型在处理有明确文字标注的图表时表现尚可,但一旦需要纯粹依靠视觉观察来理解图表,它们的能力就明显下降。这种现象就像是一个人可以流利地读出图表上的数字和标签,但却难以直观地"看出"数据之间的关系和趋势。

研究团队首先通过一项精心设计的实验证实了这一现象:他们创建了一些只能通过视觉推理解决的合成图表测试,结果显示,随着视觉复杂度增加,模型的表现显著下降,而人类的表现则保持稳定。这就像是在越来越拥挤的超市中寻找特定商品,人类能够轻松应对,而AI却越来越迷失。

基于这一发现,研究团队推出了名为"CHARTMUSEUM"(图表博物馆)的全新基准测试数据集,这个数据集包含1,162个由专家精心注释的问题,涵盖了多种推理类型,并从184个不同来源中精选了真实世界的图表。这个数据集就像一个精心策划的博物馆展览,展示了各种各样的图表"艺术品",每一件都伴随着需要深思熟虑的问题。

与现有的图表理解基准测试不同,CHARTMUSEUM揭示了模型和人类表现之间的巨大差距:虽然人类能达到93%的准确率,但表现最好的模型Gemini-2.5-Pro也仅能达到63.0%,而领先的开源视觉-语言模型Qwen2.5-VL-72B-Instruct更是只有38.5%的准确率。更让人惊讶的是,在主要需要视觉推理的问题上,所有模型的表现都比在文本推理为主的问题上低35%-55%。

这项研究就像是给AI模型做了一次全面的视力检查,揭示了它们在"看"图表方面的短板。通过对错误案例的深入分析,研究团队还识别出了当前视觉-语言模型所面临的特定视觉推理挑战类别,为未来的模型改进提供了明确方向。

一、背景与动机:为什么图表理解对AI如此重要?

在人工智能研究领域,大量工作已经集中在推理能力上,尤其是在数学和编程领域。然而,多模态推理(同时处理文字和图像的能力)却相对缺乏深入研究,即使它面临着独特的挑战,比如视觉编码器的表征瓶颈。

图表理解代表了一个理想的领域来探索文本和视觉推理的光谱。想象一下图表的设计初衷:它们旨在以一种视觉方式呈现数据,使观看者能够快速获取从原始数据中不那么明显的洞察。回答关于图表的问题需要融合视觉解释、文本信息提取和自然语言推理。研究团队发现,现有的图表问答数据集往往优先考虑文本推理或仅限于有限的真实图表来源,这限制了它们评估的范围。

为了证明即使在顶尖模型在现有基准测试中表现良好的情况下,它们仍在纯粹的视觉推理上存在显著短板,研究团队进行了一项案例研究。他们使用合成数据集进行测试,这些数据只能通过视觉推理解决,就像是一个专门设计来测试"眼力"的挑战。结果令人深思:随着视觉复杂度增加,模型表现显著下降,而人类表现则保持稳健。

想象你正在观察一个越来越复杂的拼图:拼图块数量从3个增加到9个。对人类来说,无论拼图有多少块,只要图案清晰,我们都能相对轻松地识别出来。但对AI模型来说,随着拼图块数量增加,它们越来越难以"看清"整体图案。这正是研究团队在视觉推理测试中观察到的现象。

二、CHARTMUSEUM:一个新的图表问答基准测试

为了解决现有基准测试的局限性,研究团队推出了CHARTMUSEUM,这是一个全面的图表问答基准测试,旨在评估大型视觉-语言模型在复杂真实图表上的视觉和文本推理能力。

CHARTMUSEUM由13位计算机科学研究人员共同创建,包含1,162个(图像、问题、答案)三元组,这些内容来自184个网站的928个独特真实世界图像。与以往的基准测试(如ChartBench、CharXiv、ChartQAPro)不同,这些基准测试中的问题通常是由模型生成并后来由标注者精炼的,这可能限制了它们的真实性和多样性。而CHARTMUSEUM中的所有问题都是研究人员在没有语言模型辅助的情况下策划的。

每个问题都经过了手动多阶段审查过程,以确保问题质量和答案客观性。这就像是一本精心编辑的教科书,每道练习题都经过了多轮专家审核,确保它们既有意义又有明确答案。

标注过程遵循了严格的要求。首先,研究团队要求问题必须有一个大的答案空间,明确避免二元问题或简单的比较。其次,所有问题必须有客观和无歧义的答案。对于没有标注数据的图表(如前面提到的纯视觉推理问题),研究人员专注于产生不需要容错范围就能产生唯一答案的比较问题。

此外,研究团队还排除了一些问题类型,比如"为什么"和"如何"问题,因为这些通常会产生冗长、可能带有主观性的回答,难以客观评估。他们也排除了仅询问视觉明显信息的描述性问题,以及组合多个查询的复合问题。

为了更好地分类和分析,研究团队将所有图表理解问题分为四个类别: 1. 文本推理问题:几乎完全可以通过文本推理解决; 2. 视觉推理问题:最容易从图表的视觉方面回答; 3. 文本/视觉推理问题:可以通过主要文本或主要视觉推理来回答; 4. 综合推理问题:需要同时进行文本和视觉推理。

整个标注过程包括实践环节和两个正式标注环节。平均而言,每个(图像、问题、短答案)三元组需要20分钟的总工作时间:10分钟用于图表选择和初始问题-答案对标注,5分钟用于质量审查和反馈,5分钟用于迭代完善。这个过程总共花费了约400小时来完成整个CHARTMUSEUM基准测试。

三、实验设计:如何测试模型的图表理解能力?

研究团队对当前最先进的视觉-语言模型进行了全面的基准测试。他们评估了21个模型,包括11个专有模型和10个开源模型:

在专有模型方面,他们测试了OpenAI的GPT-4o、GPT-4.1-mini、GPT-4.1、o3和o4-mini;Anthropic的Claude-3.5-Sonnet和Claude-3.7-Sonnet;以及Google的Gemini-1.5-Flash/Pro和Gemini-2.5-Pro。

在开源模型方面,他们包括了阿里巴巴的Qwen2.5-VL-3B/7B/32B/72B-Instruct;上海AI实验室的InternVL3-2B/8B/38B/78B;以及Mistral AI的Pixtral-Large-Instruct。此外,他们还包括了最新的专门用于图表理解的模型Bespoke-MiniChart-7B。

为了评估人类在CHARTMUSEUM上的表现,研究团队进行了一项小规模的标注研究,六名标注者分为两组,每组三人。对于每组,他们从剩余十名标注者(即不包括该组的三人)的标注中各抽取五个例子,从而为每组产生一个50个例子的集合。总共,他们为100个例子收集了标注,每个例子由三名标注者独立标注。他们报告了基于多数投票的人类表现,准确率为93%。

在评估方法上,研究团队使用了"LLM作为评判者"作为主要评估方法,以考虑答案的释义。这就像是雇佣了一个公正的裁判,专门负责判断模型的答案是否与正确答案等价,即使表达方式可能不同。

四、研究发现:视觉-语言模型在图表理解方面的表现如何?

CHARTMUSEUM揭示了模型之间存在巨大的性能差距。与之前被广泛评估的基准测试如ChartQA不同(在那里模型准确率紧密聚集在85%至90%之间),这个基准测试展示了最佳开源模型Qwen2.5-VL-72B-Instruct(38.5%)和最佳专有模型Gemini-2.5-Pro(63.0%)之间有24.5%的准确率差距。

专门的图表理解模型Bespoke-MiniChart-7B虽然大幅超过其他开源7B模型并接近72B模型性能,但仍远远落后于专有模型,突显了需要更强大的专门图表理解模型。最终,人类性能(93.0%)超过了最佳专有和开源模型分别30.0%和54.5%,强调了图表理解方面仍有很大的改进空间。

更重要的是,视觉推理性能比文本推理落后35%到55%,远远低于接近完美的人类视觉推理。与研究团队在ChartQA上的发现一致,模型在很大程度上依赖文本推理的问题上表现最佳。当面对主要需要复杂视觉推理的问题时,性能显著下降。模型如GPT-4.1、Qwen2.5-VL-72B和Bespoke-MiniChart-7B在视觉推理子集上的表现比在文本推理子集上下降了50%以上。

虽然模型如Claude-3.7-Sonnet、o3(高级)和Gemini-2.5-Pro的性能下降不那么明显,但这些仍然显示出约35%的绝对准确率下降,突显了视觉推理方面持续存在的不足。而这些对模型极具挑战的问题,人类在抽样的视觉推理集上几乎达到完美表现(56/57正确,或98.2%)。

有趣的是,尽管最近的研究表明语言模型在数学和代码等任务上可以通过扩展思考(即带有策略包括规划、自反思和自我验证的长链思考)显著提高性能,但研究团队并没有在图表理解方面观察到这种趋势。所有推理模型的改进性能都在Claude-3.7-Sonnet没有扩展思考的3%范围内。实际上,Claude-3.7-Sonnet使用扩展思考(61.7%)仅比其标准版本(60.3%)提高了1.4%,甚至在几个问题类别上表现下降。研究发现,这种有限的改进主要源于视觉推理能力的根本限制。

五、定性分析:模型在视觉推理方面的具体挑战

研究团队通过定性分析进一步诊断了模型在视觉推理方面的短板。他们开发了一个视觉任务分类法,并检查了模型的视觉推理错误,以确定其技能缺陷。

具体来说,研究团队识别出四个视觉任务类别: 1. 符号选择:根据特定视觉标准(如图例颜色、形状、图案或轮廓)识别图表中的对象。 2. 视觉比较:基于大小、高度、空间位置、颜色强度或范围比较多个对象(或对象组)。 3. 轨迹跟踪与判断:跟踪由线条或箭头表示的元素的位置,并描述其属性或与另一个视觉元素的关系。 4. X/Y值识别:识别图表元素的位置或值。

研究团队分析了100个随机错误实例(Claude-3.7-Sonnet和Gemini-2.5-Pro各50个),发现绝大多数错误是由于上述视觉推理任务的失败造成的,而文本推理错误相对罕见。

他们还发现了一种特殊的策略错误:模型错过了解决问题所需的预期视觉推理"技巧",而是求助于发散的思维链(通常涉及提取显式X/Y值或完全放弃)。这通常发生在所需元素的值没有明确说明,而是相对于其他视觉元素隐含的情况下。

例如,当问"纸飞机在一周中哪一天显示的飞行距离范围最大?"时,Claude-3.7-Sonnet能够认识到有"飞机飞行可视化",但没有意识到这可以用来回答问题。它转而关注右上角显示每天平均飞行长度的圆形图表。同样,Gemini-2.5-Pro识别到飞行弧线对回答问题很重要,但因为精确估计太难而放弃,没有认识到仍然可以进行视觉范围比较。

实际上,这个问题可以通过观察到最近和最远的线都是绿色(表示周五)轻松回答,而无需测量其他日子的飞行距离范围。

这些发现突显了当前视觉-语言模型的一个关键局限性:它们过度依赖文本推理策略,即使在面对可以通过直观视觉比较更容易解决的任务时也是如此。这就像是一个人总是试图通过阅读和计算来解决问题,即使直接"看"就能得到答案。

六、结论与未来方向:图表理解的新篇章

研究团队提出的CHARTMUSEUM代表了图表理解领域的一个重要里程碑。通过揭示模型在视觉推理方面的显著短板,这项研究为未来的模型改进指明了方向。

特别是,CHARTMUSEUM展示了一个明显的趋势:即使最先进的模型在处理需要视觉推理的问题时,表现也比处理文本推理问题差得多。这种不平衡突显了在提高模型的视觉理解能力方面的重要机会。

此外,研究团队的定性错误分析提供了对当前视觉-语言模型面临的具体视觉推理挑战类别的宝贵见解。未来的工作可以专注于改进符号选择、视觉比较、轨迹跟踪和X/Y值识别等特定能力,从而缩小模型与人类表现之间的差距。

虽然本研究限于英语图表和问题,可能无法反映多语言环境中的表现,但由于大多数当前的视觉-语言模型都针对英语进行了优化,这一焦点提供了当前能力的及时评估。此外,基准测试集中在具有简短答案的问题回答上,不包括其他图表理解任务,如摘要或开放式回答。然而,研究团队认为,简短答案的问题回答是识别模型弱点的有效代理,而其他任务通常可以重新表述为问答形式,或者本质上难以客观评估。

综上所述,CHARTMUSEUM为评估和改进大型视觉-语言模型在图表理解方面的能力提供了一个可靠的测试平台。通过专注于识别并解决在视觉推理方面的根本挑战,研究社区可以朝着开发能够像人类一样无缝整合文本和视觉理解的下一代AI系统迈进,从而在两种模态上都实现强大的推理能力。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。

  • 微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。

  • 用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。

  • 播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-