微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

腾讯等机构联合发布"图表竞技场"：终于有人统一了AI读图的混乱评分标准

多模态大语言模型图表解析基准测试

腾讯等机构联合发布"图表竞技场"：终于有人统一了AI读图的混乱评分标准

作者：科技行者

2026-06-08 09:06

分享至：

ChartArena是腾讯等机构联合发布的图表解析评测基准，覆盖8种图表类型、3种视觉场景和双语内容，并设计了格式无关的统一评估协议，系统评测了26个主流AI模型。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-06-08 09:06 • 科技行者

这项由腾讯大模型部门联合深圳环线区域研究院、中国科学院信息工程研究所和南开大学共同开展的研究，以预印本形式于2026年5月31日发布在arXiv平台，编号为arXiv:2606.01348。感兴趣的读者可通过该编号查阅完整论文。

当你打开一份商业报告，翻到那页密密麻麻的柱状图，脑子里第一个念头通常是：要是有个AI能帮我把这张图里的数字全部读出来，那该多好。事实上，已经有许多AI模型声称能做到这件事，但麻烦在于，它们读完之后"报告"的格式各不相同——有的吐出一张Markdown表格，有的输出一段Python代码，有的给你一份JSON文件，还有的直接画一段SVG图形代码。你根本无法用同一把尺子衡量它们谁做得更好，就像让一群厨师各自做了一道"番茄炒蛋"，有人装盘在白色瓷盘里，有人用竹编篮子端出来，有人连锅都端上桌了——菜可能味道差不多，但你没有统一的评分表。

这正是这项研究要解决的核心问题。研究团队构建了一个名为ChartArena（图表竞技场）的基准测试平台，同时设计了一套不管模型用什么格式输出都能公平打分的评估方法。这两件事加在一起，让这项研究在图表解析领域填补了一个长期存在的空缺。

一、为什么"读图"这件事比你想象中难得多

在正式介绍ChartArena之前，有必要先把问题说清楚，这样才能理解研究团队的工作有多关键。

读图，学术上叫"图表解析"，目标是让AI从一张图片里提取出结构化的数据，就像把一张折线图翻译成一张Excel表格。这件事听起来简单，但实际上暗藏三重麻烦。

第一重麻烦是输出格式的混乱。不同的AI模型各自为政，输出的格式千奇百怪。有人用Markdown表格，有人输出CSV，有人生成JSON，有人写Python绘图代码，有人甚至直接给SVG代码。这就像你问不同的人"今天几点了"，有人说"下午三点"，有人说"15:00"，有人说"距离晚饭还有三小时"，还有人给你画了一个钟表——信息本质上是一样的，但你没法直接比较谁的表达更准确。

第二重麻烦是现有评测数据集的覆盖范围太窄。大多数现有基准测试只考虑了柱状图、折线图、饼图这几种最常见的数值图表，完全忽略了现实中大量存在的流程图和思维导图。这两类图的解析难度完全不同——流程图要求AI理解节点之间的拓扑关系，思维导图要求AI还原层级结构，都远比"读取一个柱子的高度"复杂得多。

第三重麻烦是测试场景太理想化。绝大多数现有数据集使用的都是电脑屏幕上干干净净的数字图表，而现实中人们拿到的图表可能是从书上拍下来的，有反光、有透视形变；也可能是有人用手画在白板上的，线条歪歪扭扭，数字模模糊糊。这种差距就像让一个只在室内练过射击的选手参加野外比赛——环境一变，表现可能天差地别。

这三重麻烦叠加在一起，让整个图表解析领域长期缺乏一个公平、全面的评价标准，研究者们各自在自己的小数据集上测试，结果无法横向比较，进步也就难以被真正衡量。

二、"竞技场"里有什么：八种图表、三种场景、两种语言

研究团队构建ChartArena时，沿着三条轴线扩展覆盖范围，形成了一个立体的评测框架。

第一条轴线是图表类型。ChartArena覆盖了八种图表家族：柱状图、折线图、饼图、雷达图、箱线图、组合图，以及流程图和思维导图。前六种属于数值图表，主要任务是准确读取数字；后两种属于结构图表，主要任务是还原节点关系和层级结构。把这两大类统一放在同一个框架下评测，在已有基准测试中是第一次。

第二条轴线是视觉场景。每种图表都在三种"视觉条件"下被评测：干净的数字渲染版本、从印刷文件或屏幕拍摄的照片版本，以及手绘并拍照的版本。数字版本最理想，照片版本带有光线不均、透视形变等噪声，手绘版本更是加入了字体不规则、线条歪斜、涂改痕迹等额外干扰。这三个层次对应了现实中人们真正接触到图表的三种主要方式。

第三条轴线是语言。所有图表内容都有中文和英文两个版本，使ChartArena成为第一个在这种多样性规模下支持双语的图表解析基准测试。

按照每种图表类型、每种视觉场景、每种语言各50个样本的设计，ChartArena共包含2400张图表，是目前覆盖最全面的图表解析评测数据集。

这2400张图表不是凭空生成的，而是经过了一套精心设计的标注流程。研究团队首先让多个AI模型对每张图表生成初步标注，充当"草稿"，然后由人工标注员逐一核查并修正。对于数值难以确认的情况，多位标注员会独立核查，再对分歧进行协商。流程图的标注尤其严苛——标注员必须将写好的图表描述代码实际渲染成图，再与原图对比，验证节点、连线和整体逻辑是否完全吻合。整个标注工作累计耗费了超过38个人工工作日的标注时间和16个工作日的质量审查时间。

从图表采集的角度看，研究团队刻意避免使用合成或模板化的图表，而是从学术论文、商业报告、产业白皮书、财务报告等真实文档来源中采集数字版本图表，从拍摄印刷文件或屏幕中获取照片版本，从白板和笔记本涂鸦中收集手绘版本。对于某些数量不足的类别，标注员还会亲自手绘补充样本，确保每个类别的多样性。

三、统一打分的"翻译机器"：格式无关的评估协议

有了高质量的数据集，接下来就要解决"怎么打分"的问题。研究团队设计的核心方案，可以理解为一台"语义翻译机器"——不管模型输出的是哪种格式，先把它翻译成两种标准的"语义语言"，再用统一的规则打分。

对于数值图表，所有输出都被翻译成"三元组集合"。每个三元组的形式是（行类别，列标题，数值），例如（"2023年"，"销售额-万元"，"158"）。不管原始输出是Markdown表格、JSON字典、CSV还是Python代码，最终都会被分解成这种三元组的集合。这就像不管厨师用什么语言写菜谱，最后都被翻译成统一格式的配料表——你只需要对比配料表，就能判断两份菜谱是否描述了同一道菜。

对于结构图表（流程图和思维导图），所有输出都被翻译成"有向图"。这种表示方式描述的是"哪些节点存在"以及"哪些节点之间有什么方向的连线"，抽象掉了Mermaid、Graphviz、PlantUML等不同图表描述语言之间的语法差异。

翻译完成之后，评分系统会计算预测结果与标准答案之间的相似度。对于三元组，采用"交并比"方式计算——简单来说就是"正确匹配的三元组数量"除以"所有出现过的三元组总数"，交叉的越多说明越准确。判断两个三元组是否"匹配"时，文字部分允许一定的编辑距离误差（用来容忍OCR识别出的细微拼写差异），数值部分允许一定的相对误差（用来容忍四舍五入导致的细微差异）。

对于有向图，评分系统分别对节点匹配程度和边（连线）匹配程度打分，然后按照边占60%、节点占40%的权重合并——因为在流程图理解中，连线关系的错误比节点标签的小误差更致命，就像一张地铁图，你记错了一个站名是小事，但如果你把两条线路的走向搞反了，那就完全会走错路。

评分体系分为三档宽严程度：严格档（几乎不允许误差）、轻微档（小误差可以接受）和宽松档（允许较大误差）。最终报告两个主要指标：精确匹配率（EM），即完全答对的样本比例；以及均值平均精度（mAP），即在多个阈值下的平均正确率，能反映模型的整体表现水平。

这套评估协议被设计得足够通用，几乎任何格式都可以接入，不需要为每个新模型单独设计评分规则。

四、26个模型同台竞技：谁强谁弱，一目了然

有了竞技场和统一的裁判规则，研究团队让26个主流模型入场比赛，分成三大类：16个通用多模态大语言模型（包括开源和闭源）、3个专门针对文档解析优化的模型，以及7个专门为图表理解设计的专家模型。

在通用大模型阵营里，谷歌的Gemini 3.1 Pro摘得桂冠，英文测试平均得分59.2分（满分100），中文测试73.2分。紧随其后的是一批开源模型中的佼佼者——阿里的Qwen3.5-35B-A3B以56.0分（英文）排在第二，月之暗面的Kimi K2.5和阿里的Qwen3VL-235B分别以54.8和54.2紧随其后，与字节跳动闭源的Seed-2.0 Pro（54.0分）基本持平。这组数据说明，在最顶尖的水平上，开源模型与闭源模型的差距已经相当微小。

各类图表的难度差异悬殊。饼图是所有图表中相对最容易的，最强模型能达到92.5分的高水平。折线图和柱状图次之。而雷达图是数值图表里的"噩梦关卡"——最强的GPT-5在雷达图上的英文得分仅有32.0，Gemini 3.1 Pro得31.8，大多数模型甚至不到25分。这种困难来自雷达图的特殊结构：数值需要从以角度分布的圆形坐标系上读取，视觉上的精确定位难度极高，而且训练数据里雷达图本来就相对稀少。

文档解析模型的表现揭示了另一个规律。HunyuanOCR在数值图表上的整体得分达到41.4（英文），表现尚可，但遇到流程图和思维导图就明显力不从心——它的流程图得分只有39.9，而Gemini 3.1 Pro的流程图得分是65.6，足足差了25.7分；思维导图差距更大，HunyuanOCR得55.0，Gemini 3.1 Pro得86.8，相差近32分。原因在于，理解流程图和思维导图不只需要"读图"，还需要大量的世界知识来推断节点之间的隐含关系和层级结构，这正是参数量大的通用模型的优势，而紧凑型文档模型在这方面明显受限。

专家图表模型的问题更根本——覆盖范围太窄。ChartAst、ChartVLM、TinyChart这三个模型完全不具备处理流程图和思维导图的能力。在专家模型里表现最好的RRVF，总体平均得分只有36.0（英文），与最强通用模型相差超过23分。这说明专门为图表设计的模型，在受限于训练数据范围的同时，也错过了通用大模型积累的大量世界知识。

五、格式变了，分数会变多少？关于"格式稳定性"的测试

研究团队还专门测试了同一个模型在不同输出格式下的得分是否稳定，这直接关系到评估协议的公平性。

对于数值图表，Seed-2.0 Pro在Markdown、JSON、CSV和Python代码四种格式下的宽松档mAP得分分别为54.9、59.1、55.0和53.9，四种格式之间相差不超过5.2分，说明格式转换对打分的干扰相当有限。但SVG格式是个例外，Seed-2.0 Pro的SVG格式得分降到了40.0，原因不难理解：SVG是一种描述几何图形的底层格式，模型需要从"矩形在坐标系中的位置"这种低层次几何信息中反推出语义数值，这本身就是一个更难的任务，得分低不是评估系统的问题，而是格式本身的局限。

对于流程图，Mermaid、Cytoscape、Diagrams、Graphviz四种格式之间的得分差异同样很小，Seed-2.0 Pro在这四种格式下的宽松档mAP分别为58.3、62.0、59.8和61.7，差距只有3.7分。但PlantUML是明显的异常点——Seed-2.0 Pro在PlantUML格式下的得分骤降至33.8，Qwen3.5-35B-A3B更低，只有29.0，下降幅度约30分。这是因为PlantUML的语法设计更偏向顺序流程，不擅长表达有多个入口的子图和循环结构，而ChartArena里的流程图恰好包含大量这类复杂拓扑。

这组测试的意义在于：评估协议本身对大多数格式是公平的，格式之间的得分差异反映的是格式自身的表达能力限制，而不是打分系统的偏差。

六、手绘场景有多难：从数字到照片再到涂鸦的成绩下滑

把26个模型的成绩按视觉场景拆分后，出现了一致且显著的下滑趋势，研究团队用"红色下标"直观标注了每个模型从数字版本到手绘版本的得分降幅。

从数字渲染到印刷照片，大多数模型的数值图表得分下降1到8分不等。手绘照片的冲击则大得多——Gemini 3.1 Pro的数值图表得分从数字版本的67.0降至手绘版本的60.4，降幅6.6分，算是保持相当稳健了；但结构图表的降幅通常超过15分甚至20分，MiMo-V2-Omni的结构图表得分从数字版本的71.5直接降到手绘版本的50.6，足足跌了近21分。

结构图表之所以对视觉干扰更敏感，是因为理解流程图和思维导图不只需要读取文字，还需要追踪箭头的走向、识别节点的形状、判断层级关系，任何一处视觉噪声都可能打断整条推理链。相比之下，数值图表只需要读取数字和标签，对视觉清晰度的依赖相对较低。

值得注意的是，即便面对手绘图表，Gemini 3.1 Pro和Qwen3.5-35B-A3B等头部模型的得分降幅相对较小，说明它们确实积累了更强的鲁棒性，但整体上，手绘场景下所有模型的表现距离数字场景仍有相当大的差距，这预示着当前AI读图技术在真实野外环境中的部署还有相当多的改进空间。

七、从案例看细节：AI读图时会犯什么样的错误

论文中给出了几个具体案例，让这些数字背后的失败模式变得更加直观。

以一张雷达图的印刷照片为例，图中记录了某大学各项评分的雷达分布。HunyuanOCR读出的结果里，"某项能力"的分数被标注成了2，而正确值是3；另外几项也出现了类似的系统性低估，这张图的宽松档得分只有10分。Qwen3VL-8B的表现好些，但也出现了数值偏差，GPA被读成了3.2而非3。只有Gemini 3.1 Pro完美还原了所有数值，获得了100分的宽松档得分。

另一个案例是手绘饼图，图中包含12个扇区及对应的百分比标注。HunyuanOCR完全没有识别出扇区名称与百分比的对应关系，只输出了一列数字；Qwen3VL-8B读出了大多数扇区的名称和百分比，但有一项"合理安排饭量"被截断为"合理安排饭量45.21%"，而且个别百分比与标准答案有细微差异。Gemini 3.1 Pro则出现了一种典型的"语言先于视觉"的错误：它将图中一个视觉上难以确认的字符，替换成了自己认为更合理的字符，导致整条标注读错。这种错误在AI领域被称为"幻觉"——模型没有老老实实描述图片里的内容，而是用自己的知识储备"猜测并填补"了不确定的部分。

这两种失败模式——一种是遇到难以确认的内容就用"–"占位放弃回答，另一种是用听起来合理的内容填补不确定之处——代表了当前AI读图时截然不同的策略，而两种策略在不同情境下各有优劣，也都会在评分中留下痕迹。

说到底，这项研究做的事情可以用一句话概括：它为整个图表解析领域造了一把公平的尺子，并用这把尺子量了一遍当前最主流的26个AI模型，把结果清清楚楚地摆在桌上。

结果显示，顶尖闭源模型仍然领先，但开源模型的追赶速度相当快；雷达图和手绘场景仍然是所有模型的软肋；文档解析模型擅长数字图表但不会"看懂"流程图；专家图表模型则受训练数据范围限制，覆盖不了真实世界图表的全貌。

这些发现本身固然有意义，但更长远的价值在于：有了ChartArena这把统一的尺子，未来每个新模型都可以用同样的方式被量一量，进步或退步都能被看见。对于任何想深入了解这项研究的读者，可以通过arXiv编号2606.01348查阅完整论文。

Q&A

Q1：ChartArena和其他图表评测数据集有什么区别？

A：ChartArena最主要的区别在于覆盖了流程图和思维导图这两类结构图表，而此前几乎所有评测数据集都只包含柱状图、折线图、饼图等数值图表。此外，ChartArena还同时覆盖了数字渲染、印刷照片、手绘照片三种视觉场景，以及中英双语内容，是目前覆盖维度最广的图表解析基准测试。

Q2：格式无关评估协议是怎么比较输出格式不同的模型的？

A：该协议的核心思路是先把所有模型的输出"翻译"成两种统一的语义表示：数值图表翻译成三元组集合（行类别、列标题、数值），结构图表翻译成有向图（节点和带方向的边）。翻译完成后，用相同的规则对比预测结果和标准答案，这样不管原始输出是Markdown、JSON、CSV还是代码，最终都在同一个语义层面上被评分。

Q3：为什么雷达图对所有AI模型来说都特别难？

A：雷达图的难点在于它用角度来编码数据——每个变量的值通过从中心点出发的射线长度表示，这些射线以角度均匀分布在圆形坐标系上。AI需要精确估算每条射线的相对长度，这比读取柱状图的高度或饼图的面积比例在视觉上更难定量。加上雷达图在训练数据中本来就比较稀少，导致模型对这类图表的"经验积累"不足，最强模型的得分也只有30分出头。

多模态大语言模型图表解析基准测试

分享至