这项由上海交通大学、上海创新研究院和复旦大学联合完成的突破性研究发表于2025年1月,研究团队包括唐博浩、马岩、张菲、苏佳迪、陈奕涵、胡竹林、王智昕、刘鹏飞和张雅等研究人员。有兴趣深入了解的读者可以通过GitHub开源实现访问完整论文和代码(github.com/Aphelios-Tang/Code-as-Thought)。
想象一下,当你面对一张复杂的图表时,有时候你会直接用眼睛观察趋势,有时候你会拿计算器精确计算数值。不同的图表需要不同的理解方式,这正是人类智慧的体现。现在,研究团队成功让AI也学会了这种"看情况选择方法"的能力,这标志着机器智能在图表理解领域的重大突破。
目前的AI系统在理解图表时就像只会用锤子的木匠——无论面对什么问题都只会用同一种方法。有些系统只会调用预设的工具,遇到新情况就束手无策;有些系统只会写代码分析,遇到艺术化图表就"死机";还有些系统只会视觉观察,面对需要精确计算的任务就出错。这种"一招鲜"的做法在实际应用中问题很大,就像用同一个菜谱做所有菜品一样,效果必然不理想。
研究团队的核心创新在于提出了"视觉可编程性"这个全新概念。简单来说,就是让AI能够判断一张图表是否适合用代码来分析。就像厨师看到食材就知道该用煎、炒、炖还是蒸一样,AI现在也能看到图表就知道该用代码分析还是直接观察。这种判断能力被训练成了一种策略选择机制,让AI能够根据具体情况灵活调整自己的推理方式。
一、从单一策略的局限性说起
研究团队首先深入调查了为什么现有的方法总是在某些情况下失效。他们发现,问题的根源在于所有现有系统都采用固定策略,就像只会一种解题方法的学生,遇到不同类型的题目时必然会遇到困难。
为了验证这个假设,研究团队专门训练了一个"代码专家"模型,让它专门用编程的方式来理解图表。这个模型在面对结构化图表时表现优异,准确率达到71.6%,就像一个精通数学的学生面对计算题时游刃有余。但是当这个模型遇到复杂的科研图表时,准确率竟然暴跌到18.4%,这种巨大的落差清楚地暴露了单一策略的致命缺陷。
问题出在哪里呢?研究团队发现了一个关键现象叫做"数值幻觉"。当AI试图用代码分析一张本来不适合编程处理的图表时,它会错误地"看到"一些并不存在的数据,然后基于这些错误信息进行完美的逻辑推理,最终得出一个逻辑自洽但完全错误的答案。这就像一个人戴着有色眼镜看世界,虽然推理过程很完美,但起点就错了,结果自然南辕北辙。
即使研究团队使用强化学习等先进技术来提升模型能力,这种根本性问题依然存在。这说明问题不在于AI不够聪明,而在于它不知道什么时候该用什么方法。就像给一个人最好的工具但不告诉他们使用场合,结果必然是事倍功半。
二、视觉可编程性:判断图表的"体质"
基于这些发现,研究团队提出了"视觉可编程性"这个革命性概念。这个概念的核心思想是:不是所有图表都适合用代码来分析,AI需要学会判断一张图表是否具备"可编程的体质"。
什么叫可编程的体质呢?研究团队通过大量案例分析发现,适合编程分析的图表通常具备几个特征。首先是结构清晰,比如标准的柱状图、折线图,这些图表就像整齐的表格一样,数据关系明确,很容易用代码提取和处理。其次是数据可见,图表上的数值要么直接标注,要么可以通过网格线推算出来,这为编程分析提供了可靠的数据基础。
相对地,不适合编程分析的图表通常具有艺术性或复杂性特征。比如科研论文中的等高线图、热力图,或者经过特殊设计的信息图表,这些图表的含义往往蕴含在整体模式中,而非具体的数值点。试图用代码分析这些图表就像试图用公式描述一幅画的美感一样,不仅困难而且会丢失关键信息。
更重要的是,研究团队发现视觉可编程性不仅取决于图表本身,还与具体的问题密切相关。同一张图表,如果问题是"有多少条数据线",那就很适合编程分析;但如果问题是"整体趋势如何",那直接观察可能更合适。这种情境依赖性让问题变得更加复杂,也更加有趣。
为了让AI学会这种判断能力,研究团队开发了一套标注框架。他们让人类专家根据"代码表示能否保留回答问题所需的关键信息"这个核心原则,对大量图表-问题对进行分类。这个过程类似于培养品酒师的味觉,需要大量的经验积累和精细的判断能力。
三、自适应推理框架:让AI学会选择
有了判断标准,下一步就是教会AI如何做出选择。研究团队设计了一个自适应推理框架,让AI在面对每个图表时都要先做一个关键决策:是用代码分析(CODE路径)还是直接观察(DIRECT路径)。
这个决策过程被设计得很像人类的思考方式。当AI看到一张图表和一个问题时,它首先会评估这个组合的视觉可编程性。如果判断适合编程分析,它就会生成代码来提取数据、进行计算;如果判断不适合,它就会依靠视觉理解能力直接分析图表。
代码分析路径的工作方式很像一个数据分析师。AI会先"看"图表,然后写代码把图表转换成数据表格,接着对这些数据进行各种计算和分析,最后得出答案。这种方法的优势是精确可靠,特别适合需要准确数值或复杂计算的任务。
直接观察路径则更像一个艺术评论家的工作方式。AI会整体把握图表的视觉模式,理解其中的趋势和关系,通过视觉推理得出答案。这种方法虽然可能不够精确,但能够捕捉到那些难以量化的信息,特别适合需要整体理解的任务。
关键的创新在于,AI不是被预先设定使用哪种方法,而是学会了自主选择。这种选择能力是通过强化学习训练出来的,就像训练一个学生学会根据题目类型选择解题方法一样。
四、双重奖励机制:平衡准确性与策略智慧
训练AI做出正确选择面临一个核心挑战:如何设计奖励机制才能让AI既追求准确答案,又学会智慧地选择策略?研究团队创新性地设计了一个双重奖励系统,这是整个框架成功的关键。
传统的训练方法只关注最终答案的对错,这就像只看考试成绩不看解题过程一样。这种方法会导致AI偷懒,总是选择那个看起来更安全的策略,即使这个策略并不是最适合的。研究团队意识到,要让AI学会真正的策略选择,必须在奖励设计上下功夫。
他们设计的双重奖励系统包含四个精心设计的组件。首先是准确性奖励,这是最基础的,答对了就有奖励,答错了就没有。这确保AI始终以正确性为目标。
更巧妙的是决策奖励的设计。这个奖励不只看结果对错,还要看选择的策略是否合适。如果AI选对了策略并且答对了问题,它会得到满分奖励;如果选对了策略但答错了问题(比如因为技术执行问题),它仍然会得到部分奖励,这鼓励AI继续探索正确的策略方向;但如果选错了策略,即使碰巧答对了,奖励也会很低,这防止AI学会投机取巧。
数据准确性奖励专门针对代码分析路径。当AI选择用代码分析图表时,系统会检查AI生成的数据表格与真实数据的匹配程度。这个检查过程很细致,不仅比较数值的准确性,还考虑表格结构的合理性。这确保AI不会出现"数值幻觉"问题,即不会基于错误理解的数据进行分析。
最后还有一个格式奖励,确保AI的输出符合标准格式,这虽然看起来微不足道,但对自动化评估很重要。
这个四重奖励系统的精妙之处在于它创造了一个复杂的优化目标。AI不能简单地选择最容易的策略,也不能只追求表面的正确性,而必须学会在准确性和策略智慧之间找到平衡。
五、训练过程:从模仿到智慧
整个训练过程采用了被称为"群体相对策略优化"(GRPO)的强化学习算法。这个名字听起来很复杂,但其实道理很简单,就像班级里的小组竞争学习。
具体来说,对于每个训练样本,AI会生成多个不同的回答方案,然后系统会用前面提到的四重奖励标准对这些方案进行评分和排名。表现好的方案会被鼓励,表现差的方案会被抑制。这种相对比较的方式比绝对评分更有效,因为它能让AI理解什么是"更好的选择"而不仅仅是"正确的选择"。
训练数据的构建也很有讲究。研究团队基于ChartMimic数据集,这个数据集包含了4800对图表和对应的代码。但光有图表和代码是不够的,还需要问题和答案。研究团队使用先进的语言模型来生成多样化的问题,确保涵盖了各种类型的图表理解任务,从简单的数值读取到复杂的趋势分析都有。
更重要的是,每个图表-问题对都被人工标注了视觉可编程性。这个标注过程就像给每道菜贴上"适合煎炒"或"适合炖煮"的标签一样,为AI的学习提供了关键的指导信号。
训练过程是渐进式的。一开始,AI的选择基本是随机的,就像初学者面对新问题时的迷茫。但随着训练的进行,AI逐渐学会了识别不同图表的特征,理解了不同策略的适用场景,最终发展出了稳定的选择能力。
六、实验验证:全方位测试显威力
为了全面验证这个自适应框架的效果,研究团队在四个不同类型的基准数据集上进行了测试,这些数据集就像四个不同难度和风格的考试,全面检验AI的能力。
ChartX数据集代表了高可编程性的图表,这些图表结构清晰,数据明确,最适合代码分析。在这个"最佳场景"下,自适应框架达到了65.6%的准确率,明显超过了固定策略的表现。更有趣的是,AI在这个数据集上76%的时间选择了代码分析路径,说明它确实学会了识别适合编程分析的图表。
ChartBench数据集专注于数值推理,图表上的数据点往往没有明确标注,需要通过视觉插值来估算。这对代码分析提出了更高要求。自适应框架在这里达到了54.8%的准确率,而且66.6%的时候选择了代码路径,显示出对中等可编程性图表的准确判断。
ChartQA数据集包含真实世界的图表,复杂性和多样性都很高。在这个更接近实际应用的测试中,自适应框架保持了86.4%的高准确率,而且98.3%的时候选择了代码分析,说明大部分真实图表确实适合编程处理。
最具挑战性的是CharXiv数据集,这些图表来自科研论文,具有高度的艺术性和复杂性,代表了低可编程性的典型案例。在这个"最难场景"下,自适应框架达到了44.3%的准确率,虽然绝对数值不高,但相比固定策略有显著提升。更重要的是,AI在这里只有10.1%的时间选择代码分析,清楚地表明它学会了避免在不适合的场景下使用代码。
这些结果的模式很清楚:AI不仅学会了在合适的时候使用合适的方法,而且这种智慧选择带来了整体性能的显著提升。
七、深入分析:智慧选择的价值
为了更深入理解自适应框架的工作机制,研究团队进行了一系列细致的分析实验。这些分析就像解剖一个精密机械,了解每个部件的作用。
首先,他们验证了数值精确性与最终准确性之间的强相关关系。在ChartX数据集上,当AI能够高精度提取图表数据时(准确率超过80%),最终答案的正确率高达85.6%;而当数据提取质量较低时(准确率低于60%),最终正确率只有48.4%。这清楚地说明了"数据准确性奖励"设计的重要性——只有准确理解了图表内容,才能得出可靠的结论。
其次,他们分析了训练过程中AI策略选择的演化。有趣的发现是,随着训练的进行,AI在高数据质量任务上的表现稳步提升,而在低数据质量任务上的表现实际上是下降的。这说明AI不是在学习如何猜测,而是在学习如何放弃——当发现自己无法可靠地提取数据时,它会智慧地选择其他方法。
奖励成分的删减实验揭示了每个奖励组件的作用。当去除决策奖励时,AI会退化成简单的策略固化,要么总是选择代码,要么总是选择直接观察,失去了灵活性。当去除数据准确性奖励时,AI虽然仍能做出策略选择,但在高可编程性图表上的表现显著下降,因为它不再关心数据提取的质量。
研究团队还测试了框架在不同规模模型上的表现。在32B参数的大模型上,自适应框架的优势更加明显,达到了61.0%的平均准确率。但在3B参数的小模型上,情况变得复杂——虽然自适应能力有所体现,但固定的代码策略反而表现更好。这说明策略选择需要一定的认知复杂度,小模型可能难以处理这种元认知任务。
八、案例展示:智慧选择的具体体现
为了让抽象的概念变得具体,研究团队展示了两个对比鲜明的案例,清楚地说明了智慧选择的价值。
第一个案例是一个标准的堆叠面积图,显示了不同运输方式的货运量变化。问题是"海运货运量从1月到12月增加了多少"。这是一个典型的高可编程性任务,因为图表结构清晰,数据关系明确,需要精确的数值计算。
自适应框架正确地选择了代码分析路径。它首先"阅读"图表,提取出各个月份和运输方式的数据,构建了一个完整的数据表,然后通过简单的计算得出海运量从15万吨增加到37万吨,净增长22万吨。整个过程精确可靠。
相比之下,固定的直接观察策略只能通过目测估算,得出的答案存在较大误差。这个案例清楚地展示了在合适场景下代码分析的优势。
第二个案例是一个复杂的科研图表,显示了不同参数下的感染水平变化曲线。问题是"在α=0.8的子图中,最优控制和博弈控制在感染水平上差异最大的时间点是什么"。这是一个典型的低可编程性任务,因为图表包含多条交织的曲线,关键信息蕴含在曲线间的相对关系中,难以精确量化。
固定的代码分析策略试图提取数值数据,但由于图表的复杂性,它产生了错误的数据表示,然后基于错误数据进行了完美的逻辑推理,得出了错误答案。这是典型的"数值幻觉"现象。
自适应框架智慧地选择了直接观察路径。它通过视觉比较不同曲线,识别出在时间点15附近两条曲线的差异最大,给出了正确答案。这个案例展示了在复杂场景下直接观察的不可替代价值。
这两个案例形成了完美的对比,展示了"没有万能的方法,只有合适的选择"这一核心理念。
九、更广阔的视野:从方法融合到智能进化
这项研究的意义远远超出了图表理解这个具体领域,它代表了人工智能发展的一个重要趋势:从单一技能的优化转向策略选择的智慧。
长期以来,AI研究主要关注"模态融合"——如何有效整合来自不同感官的信息。但这项研究指向了一个同样重要但相对被忽视的方向:"方法融合"——如何在同一任务中灵活选择和组合不同的推理策略。这种能力更接近人类智能的本质,因为人类面对问题时总是能够根据情况选择最合适的思考方式。
研究团队提出的"能力边界感知"概念也具有深远意义。让AI不仅知道如何解决问题,还知道自己什么时候能解决、什么时候解决不了,这是迈向真正可靠AI的关键一步。当前许多AI系统的问题不在于能力不足,而在于不知道自己的局限性,这导致了过度自信和不可预测的失败。
当然,这项研究也有其局限性。当前的策略选择是二元的——要么代码要么直接观察,未来可能需要更细粒度的混合策略。比如,可以用代码提取基础数据,同时用视觉理解把握整体模式,然后将两者结合起来。
另一个重要方向是扩展"代码即思维"的范围。目前的代码主要用于数据分析,但理论上可以扩展到其他形式的符号推理,比如图论分析、信号处理等。这将大大扩展AI的符号推理能力。
从更长远的角度看,这项研究指向了一个更宏大的目标:让AI学会动态组合不同的认知策略。未来的AI系统可能不会预先装备固定的算法集合,而是能够根据问题的特点即时构建最合适的解决方案。这种能力将是通向真正通用人工智能的重要一步。
说到底,这项研究最重要的贡献不是解决了图表理解这个特定问题,而是为AI发展提供了一个新的思路:不要总想着让AI在单一方法上做到极致,而要教会它在合适的时机选择合适的方法。这种策略智慧,或许正是区分聪明与智慧的关键所在。
正如研究团队在论文中所说:"真正的智能不是拥有最强大的单一工具,而是知道在什么时候使用什么工具。"这句话不仅适用于AI系统,对人类的学习和工作同样具有启发意义。在这个技术飞速发展的时代,学会选择和整合不同的方法,可能比掌握单一的专业技能更加重要。
Q&A
Q1:什么是视觉可编程性?它如何判断图表适不适合用代码分析?
A:视觉可编程性是研究团队提出的新概念,用来判断一张图表是否适合用编程方式分析。简单说就是看图表的关键信息能否完整地转换成代码和数据。如果图表结构清晰、数据明确(比如标准柱状图),就适合代码分析;如果图表很艺术化或信息蕴含在整体模式中(比如科研热力图),就更适合直接观察。
Q2:这个自适应框架比传统方法好在哪里?
A:传统AI只会用一种方法处理所有图表,就像只会用锤子的木匠。而自适应框架让AI学会了根据具体情况选择最合适的方法。实验显示,它在四个不同数据集上的平均准确率达到62.8%,明显超过固定策略。更重要的是,它会在适合的时候多用代码分析(比如结构化图表上76%使用率),在不适合时少用(复杂科研图表上仅10.1%使用率)。
Q3:这项研究对普通人有什么实际意义吗?
A:这项研究的意义不只是让AI更好地理解图表,更重要的是展示了"智慧选择"的价值。它告诉我们,面对问题时不要总想着用同一种方法,而要学会根据情况灵活选择。这个理念对我们的学习、工作都有启发——有时需要精确计算,有时需要整体把握,真正的智慧在于知道什么时候用什么方法。
好文章,需要你的鼓励
腾讯ARC实验室推出AudioStory系统,首次实现AI根据复杂指令创作完整长篇音频故事。该系统结合大语言模型的叙事推理能力与音频生成技术,通过交错式推理生成、解耦桥接机制和渐进式训练,能够将复杂指令分解为连续音频场景并保持整体连贯性。在AudioStory-10K基准测试中表现优异,为AI音频创作开辟新方向。
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。
上海AI实验室发布OmniAlign-V研究,首次系统性解决多模态大语言模型人性化对话问题。该研究创建了包含20万高质量样本的训练数据集和MM-AlignBench评测基准,通过创新的数据生成和质量管控方法,让AI在保持技术能力的同时显著提升人性化交互水平,为AI价值观对齐提供了可行技术路径。
谷歌DeepMind团队开发的GraphCast是一个革命性的AI天气预测模型,能够在不到一分钟内完成10天全球天气预报,准确性超越传统方法90%的指标。该模型采用图神经网络技术,通过学习40年历史数据掌握天气变化规律,在极端天气预测方面表现卓越,能耗仅为传统方法的千分之一,为气象学领域带来了效率和精度的双重突破。