微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

上海交通大学团队破解图表理解难题：让AI学会选择最合适的推理方式

人工智能图表理解自适应推理

上海交通大学团队破解图表理解难题：让AI学会选择最合适的推理方式

作者：科技行者

2025-09-12 16:47

分享至：

上海交通大学团队通过引入"视觉可编程性"概念，成功让AI学会根据图表特征自主选择代码分析或直接观察的推理方式。该自适应框架在四个基准数据集上平均准确率达62.8%，显著超越固定策略方法。研究采用双重奖励机制训练，确保AI既追求准确性又具备策略选择智慧，为构建更灵活可靠的人工智能系统提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-09-12 16:47 • 科技行者

这项由上海交通大学、上海创新研究院和复旦大学联合完成的突破性研究发表于2025年1月，研究团队包括唐博浩、马岩、张菲、苏佳迪、陈奕涵、胡竹林、王智昕、刘鹏飞和张雅等研究人员。有兴趣深入了解的读者可以通过GitHub开源实现访问完整论文和代码（github.com/Aphelios-Tang/Code-as-Thought）。

想象一下，当你面对一张复杂的图表时，有时候你会直接用眼睛观察趋势，有时候你会拿计算器精确计算数值。不同的图表需要不同的理解方式，这正是人类智慧的体现。现在，研究团队成功让AI也学会了这种"看情况选择方法"的能力，这标志着机器智能在图表理解领域的重大突破。

目前的AI系统在理解图表时就像只会用锤子的木匠——无论面对什么问题都只会用同一种方法。有些系统只会调用预设的工具，遇到新情况就束手无策；有些系统只会写代码分析，遇到艺术化图表就"死机"；还有些系统只会视觉观察，面对需要精确计算的任务就出错。这种"一招鲜"的做法在实际应用中问题很大，就像用同一个菜谱做所有菜品一样，效果必然不理想。

研究团队的核心创新在于提出了"视觉可编程性"这个全新概念。简单来说，就是让AI能够判断一张图表是否适合用代码来分析。就像厨师看到食材就知道该用煎、炒、炖还是蒸一样，AI现在也能看到图表就知道该用代码分析还是直接观察。这种判断能力被训练成了一种策略选择机制，让AI能够根据具体情况灵活调整自己的推理方式。

一、从单一策略的局限性说起

研究团队首先深入调查了为什么现有的方法总是在某些情况下失效。他们发现，问题的根源在于所有现有系统都采用固定策略，就像只会一种解题方法的学生，遇到不同类型的题目时必然会遇到困难。

为了验证这个假设，研究团队专门训练了一个"代码专家"模型，让它专门用编程的方式来理解图表。这个模型在面对结构化图表时表现优异，准确率达到71.6%，就像一个精通数学的学生面对计算题时游刃有余。但是当这个模型遇到复杂的科研图表时，准确率竟然暴跌到18.4%，这种巨大的落差清楚地暴露了单一策略的致命缺陷。

问题出在哪里呢？研究团队发现了一个关键现象叫做"数值幻觉"。当AI试图用代码分析一张本来不适合编程处理的图表时，它会错误地"看到"一些并不存在的数据，然后基于这些错误信息进行完美的逻辑推理，最终得出一个逻辑自洽但完全错误的答案。这就像一个人戴着有色眼镜看世界，虽然推理过程很完美，但起点就错了，结果自然南辕北辙。

即使研究团队使用强化学习等先进技术来提升模型能力，这种根本性问题依然存在。这说明问题不在于AI不够聪明，而在于它不知道什么时候该用什么方法。就像给一个人最好的工具但不告诉他们使用场合，结果必然是事倍功半。

二、视觉可编程性：判断图表的"体质"

基于这些发现，研究团队提出了"视觉可编程性"这个革命性概念。这个概念的核心思想是：不是所有图表都适合用代码来分析，AI需要学会判断一张图表是否具备"可编程的体质"。

什么叫可编程的体质呢？研究团队通过大量案例分析发现，适合编程分析的图表通常具备几个特征。首先是结构清晰，比如标准的柱状图、折线图，这些图表就像整齐的表格一样，数据关系明确，很容易用代码提取和处理。其次是数据可见，图表上的数值要么直接标注，要么可以通过网格线推算出来，这为编程分析提供了可靠的数据基础。

相对地，不适合编程分析的图表通常具有艺术性或复杂性特征。比如科研论文中的等高线图、热力图，或者经过特殊设计的信息图表，这些图表的含义往往蕴含在整体模式中，而非具体的数值点。试图用代码分析这些图表就像试图用公式描述一幅画的美感一样，不仅困难而且会丢失关键信息。

更重要的是，研究团队发现视觉可编程性不仅取决于图表本身，还与具体的问题密切相关。同一张图表，如果问题是"有多少条数据线"，那就很适合编程分析；但如果问题是"整体趋势如何"，那直接观察可能更合适。这种情境依赖性让问题变得更加复杂，也更加有趣。

为了让AI学会这种判断能力，研究团队开发了一套标注框架。他们让人类专家根据"代码表示能否保留回答问题所需的关键信息"这个核心原则，对大量图表-问题对进行分类。这个过程类似于培养品酒师的味觉，需要大量的经验积累和精细的判断能力。

三、自适应推理框架：让AI学会选择

有了判断标准，下一步就是教会AI如何做出选择。研究团队设计了一个自适应推理框架，让AI在面对每个图表时都要先做一个关键决策：是用代码分析（CODE路径）还是直接观察（DIRECT路径）。

这个决策过程被设计得很像人类的思考方式。当AI看到一张图表和一个问题时，它首先会评估这个组合的视觉可编程性。如果判断适合编程分析，它就会生成代码来提取数据、进行计算；如果判断不适合，它就会依靠视觉理解能力直接分析图表。

代码分析路径的工作方式很像一个数据分析师。AI会先"看"图表，然后写代码把图表转换成数据表格，接着对这些数据进行各种计算和分析，最后得出答案。这种方法的优势是精确可靠，特别适合需要准确数值或复杂计算的任务。

直接观察路径则更像一个艺术评论家的工作方式。AI会整体把握图表的视觉模式，理解其中的趋势和关系，通过视觉推理得出答案。这种方法虽然可能不够精确，但能够捕捉到那些难以量化的信息，特别适合需要整体理解的任务。

关键的创新在于，AI不是被预先设定使用哪种方法，而是学会了自主选择。这种选择能力是通过强化学习训练出来的，就像训练一个学生学会根据题目类型选择解题方法一样。

四、双重奖励机制：平衡准确性与策略智慧

训练AI做出正确选择面临一个核心挑战：如何设计奖励机制才能让AI既追求准确答案，又学会智慧地选择策略？研究团队创新性地设计了一个双重奖励系统，这是整个框架成功的关键。

传统的训练方法只关注最终答案的对错，这就像只看考试成绩不看解题过程一样。这种方法会导致AI偷懒，总是选择那个看起来更安全的策略，即使这个策略并不是最适合的。研究团队意识到，要让AI学会真正的策略选择，必须在奖励设计上下功夫。

他们设计的双重奖励系统包含四个精心设计的组件。首先是准确性奖励，这是最基础的，答对了就有奖励，答错了就没有。这确保AI始终以正确性为目标。

更巧妙的是决策奖励的设计。这个奖励不只看结果对错，还要看选择的策略是否合适。如果AI选对了策略并且答对了问题，它会得到满分奖励；如果选对了策略但答错了问题（比如因为技术执行问题），它仍然会得到部分奖励，这鼓励AI继续探索正确的策略方向；但如果选错了策略，即使碰巧答对了，奖励也会很低，这防止AI学会投机取巧。

数据准确性奖励专门针对代码分析路径。当AI选择用代码分析图表时，系统会检查AI生成的数据表格与真实数据的匹配程度。这个检查过程很细致，不仅比较数值的准确性，还考虑表格结构的合理性。这确保AI不会出现"数值幻觉"问题，即不会基于错误理解的数据进行分析。

最后还有一个格式奖励，确保AI的输出符合标准格式，这虽然看起来微不足道，但对自动化评估很重要。

这个四重奖励系统的精妙之处在于它创造了一个复杂的优化目标。AI不能简单地选择最容易的策略，也不能只追求表面的正确性，而必须学会在准确性和策略智慧之间找到平衡。

五、训练过程：从模仿到智慧

整个训练过程采用了被称为"群体相对策略优化"(GRPO)的强化学习算法。这个名字听起来很复杂，但其实道理很简单，就像班级里的小组竞争学习。

具体来说，对于每个训练样本，AI会生成多个不同的回答方案，然后系统会用前面提到的四重奖励标准对这些方案进行评分和排名。表现好的方案会被鼓励，表现差的方案会被抑制。这种相对比较的方式比绝对评分更有效，因为它能让AI理解什么是"更好的选择"而不仅仅是"正确的选择"。

训练数据的构建也很有讲究。研究团队基于ChartMimic数据集，这个数据集包含了4800对图表和对应的代码。但光有图表和代码是不够的，还需要问题和答案。研究团队使用先进的语言模型来生成多样化的问题，确保涵盖了各种类型的图表理解任务，从简单的数值读取到复杂的趋势分析都有。

更重要的是，每个图表-问题对都被人工标注了视觉可编程性。这个标注过程就像给每道菜贴上"适合煎炒"或"适合炖煮"的标签一样，为AI的学习提供了关键的指导信号。

训练过程是渐进式的。一开始，AI的选择基本是随机的，就像初学者面对新问题时的迷茫。但随着训练的进行，AI逐渐学会了识别不同图表的特征，理解了不同策略的适用场景，最终发展出了稳定的选择能力。

六、实验验证：全方位测试显威力

为了全面验证这个自适应框架的效果，研究团队在四个不同类型的基准数据集上进行了测试，这些数据集就像四个不同难度和风格的考试，全面检验AI的能力。

ChartX数据集代表了高可编程性的图表，这些图表结构清晰，数据明确，最适合代码分析。在这个"最佳场景"下，自适应框架达到了65.6%的准确率，明显超过了固定策略的表现。更有趣的是，AI在这个数据集上76%的时间选择了代码分析路径，说明它确实学会了识别适合编程分析的图表。

ChartBench数据集专注于数值推理，图表上的数据点往往没有明确标注，需要通过视觉插值来估算。这对代码分析提出了更高要求。自适应框架在这里达到了54.8%的准确率，而且66.6%的时候选择了代码路径，显示出对中等可编程性图表的准确判断。

ChartQA数据集包含真实世界的图表，复杂性和多样性都很高。在这个更接近实际应用的测试中，自适应框架保持了86.4%的高准确率，而且98.3%的时候选择了代码分析，说明大部分真实图表确实适合编程处理。

最具挑战性的是CharXiv数据集，这些图表来自科研论文，具有高度的艺术性和复杂性，代表了低可编程性的典型案例。在这个"最难场景"下，自适应框架达到了44.3%的准确率，虽然绝对数值不高，但相比固定策略有显著提升。更重要的是，AI在这里只有10.1%的时间选择代码分析，清楚地表明它学会了避免在不适合的场景下使用代码。

这些结果的模式很清楚：AI不仅学会了在合适的时候使用合适的方法，而且这种智慧选择带来了整体性能的显著提升。

七、深入分析：智慧选择的价值

为了更深入理解自适应框架的工作机制，研究团队进行了一系列细致的分析实验。这些分析就像解剖一个精密机械，了解每个部件的作用。

首先，他们验证了数值精确性与最终准确性之间的强相关关系。在ChartX数据集上，当AI能够高精度提取图表数据时（准确率超过80%），最终答案的正确率高达85.6%；而当数据提取质量较低时（准确率低于60%），最终正确率只有48.4%。这清楚地说明了"数据准确性奖励"设计的重要性——只有准确理解了图表内容，才能得出可靠的结论。

其次，他们分析了训练过程中AI策略选择的演化。有趣的发现是，随着训练的进行，AI在高数据质量任务上的表现稳步提升，而在低数据质量任务上的表现实际上是下降的。这说明AI不是在学习如何猜测，而是在学习如何放弃——当发现自己无法可靠地提取数据时，它会智慧地选择其他方法。

奖励成分的删减实验揭示了每个奖励组件的作用。当去除决策奖励时，AI会退化成简单的策略固化，要么总是选择代码，要么总是选择直接观察，失去了灵活性。当去除数据准确性奖励时，AI虽然仍能做出策略选择，但在高可编程性图表上的表现显著下降，因为它不再关心数据提取的质量。

研究团队还测试了框架在不同规模模型上的表现。在32B参数的大模型上，自适应框架的优势更加明显，达到了61.0%的平均准确率。但在3B参数的小模型上，情况变得复杂——虽然自适应能力有所体现，但固定的代码策略反而表现更好。这说明策略选择需要一定的认知复杂度，小模型可能难以处理这种元认知任务。

八、案例展示：智慧选择的具体体现

为了让抽象的概念变得具体，研究团队展示了两个对比鲜明的案例，清楚地说明了智慧选择的价值。

第一个案例是一个标准的堆叠面积图，显示了不同运输方式的货运量变化。问题是"海运货运量从1月到12月增加了多少"。这是一个典型的高可编程性任务，因为图表结构清晰，数据关系明确，需要精确的数值计算。

自适应框架正确地选择了代码分析路径。它首先"阅读"图表，提取出各个月份和运输方式的数据，构建了一个完整的数据表，然后通过简单的计算得出海运量从15万吨增加到37万吨，净增长22万吨。整个过程精确可靠。

相比之下，固定的直接观察策略只能通过目测估算，得出的答案存在较大误差。这个案例清楚地展示了在合适场景下代码分析的优势。

第二个案例是一个复杂的科研图表，显示了不同参数下的感染水平变化曲线。问题是"在α=0.8的子图中，最优控制和博弈控制在感染水平上差异最大的时间点是什么"。这是一个典型的低可编程性任务，因为图表包含多条交织的曲线，关键信息蕴含在曲线间的相对关系中，难以精确量化。

固定的代码分析策略试图提取数值数据，但由于图表的复杂性，它产生了错误的数据表示，然后基于错误数据进行了完美的逻辑推理，得出了错误答案。这是典型的"数值幻觉"现象。

自适应框架智慧地选择了直接观察路径。它通过视觉比较不同曲线，识别出在时间点15附近两条曲线的差异最大，给出了正确答案。这个案例展示了在复杂场景下直接观察的不可替代价值。

这两个案例形成了完美的对比，展示了"没有万能的方法，只有合适的选择"这一核心理念。

九、更广阔的视野：从方法融合到智能进化

这项研究的意义远远超出了图表理解这个具体领域，它代表了人工智能发展的一个重要趋势：从单一技能的优化转向策略选择的智慧。

长期以来，AI研究主要关注"模态融合"——如何有效整合来自不同感官的信息。但这项研究指向了一个同样重要但相对被忽视的方向："方法融合"——如何在同一任务中灵活选择和组合不同的推理策略。这种能力更接近人类智能的本质，因为人类面对问题时总是能够根据情况选择最合适的思考方式。

研究团队提出的"能力边界感知"概念也具有深远意义。让AI不仅知道如何解决问题，还知道自己什么时候能解决、什么时候解决不了，这是迈向真正可靠AI的关键一步。当前许多AI系统的问题不在于能力不足，而在于不知道自己的局限性，这导致了过度自信和不可预测的失败。

当然，这项研究也有其局限性。当前的策略选择是二元的——要么代码要么直接观察，未来可能需要更细粒度的混合策略。比如，可以用代码提取基础数据，同时用视觉理解把握整体模式，然后将两者结合起来。

另一个重要方向是扩展"代码即思维"的范围。目前的代码主要用于数据分析，但理论上可以扩展到其他形式的符号推理，比如图论分析、信号处理等。这将大大扩展AI的符号推理能力。

从更长远的角度看，这项研究指向了一个更宏大的目标：让AI学会动态组合不同的认知策略。未来的AI系统可能不会预先装备固定的算法集合，而是能够根据问题的特点即时构建最合适的解决方案。这种能力将是通向真正通用人工智能的重要一步。

说到底，这项研究最重要的贡献不是解决了图表理解这个特定问题，而是为AI发展提供了一个新的思路：不要总想着让AI在单一方法上做到极致，而要教会它在合适的时机选择合适的方法。这种策略智慧，或许正是区分聪明与智慧的关键所在。

正如研究团队在论文中所说："真正的智能不是拥有最强大的单一工具，而是知道在什么时候使用什么工具。"这句话不仅适用于AI系统，对人类的学习和工作同样具有启发意义。在这个技术飞速发展的时代，学会选择和整合不同的方法，可能比掌握单一的专业技能更加重要。

Q&A

Q1：什么是视觉可编程性？它如何判断图表适不适合用代码分析？

A：视觉可编程性是研究团队提出的新概念，用来判断一张图表是否适合用编程方式分析。简单说就是看图表的关键信息能否完整地转换成代码和数据。如果图表结构清晰、数据明确（比如标准柱状图），就适合代码分析；如果图表很艺术化或信息蕴含在整体模式中（比如科研热力图），就更适合直接观察。

Q2：这个自适应框架比传统方法好在哪里？

A：传统AI只会用一种方法处理所有图表，就像只会用锤子的木匠。而自适应框架让AI学会了根据具体情况选择最合适的方法。实验显示，它在四个不同数据集上的平均准确率达到62.8%，明显超过固定策略。更重要的是，它会在适合的时候多用代码分析（比如结构化图表上76%使用率），在不适合时少用（复杂科研图表上仅10.1%使用率）。

Q3：这项研究对普通人有什么实际意义吗？

A：这项研究的意义不只是让AI更好地理解图表，更重要的是展示了"智慧选择"的价值。它告诉我们，面对问题时不要总想着用同一种方法，而要学会根据情况灵活选择。这个理念对我们的学习、工作都有启发——有时需要精确计算，有时需要整体把握，真正的智慧在于知道什么时候用什么方法。

人工智能图表理解自适应推理

分享至