微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

北京大学与腾讯联手：这套AI系统能在文件截图里精准找到答案的出处，还能画出推理路径

多模态检索增强生成视觉语言模型像素级证据定位

北京大学与腾讯联手：这套AI系统能在文件截图里精准找到答案的出处，还能画出推理路径

作者：科技行者

2026-05-11 14:07

分享至：

北京大学与腾讯联合研究团队提出的CoE框架，让AI在回答多步骤问题时，不再把文件转成文字处理，而是直接分析文件截图，并在截图上精确画出证据所在的像素区域，将整条推理路径可视化呈现。该研究同时发布了首个大规模多步骤视觉证据定位数据集Wiki-CoE，包含超过7万道问题和17.5万个边界框标注。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-11 14:07 • 科技行者

这篇论文来自北京大学国家软件工程研究中心、香港城市大学与腾讯科技北京分部的联合研究团队，发表于2026年7月20日至24日在澳大利亚墨尔本举办的第49届ACM SIGIR国际信息检索研究与发展会议（SIGIR '26），论文编号为DOI: 10.1145/3805712.3809540，感兴趣的读者可通过该编号查询完整原文。

当你向一个聪明的AI助手提问"《盗梦空间》导演毕业于哪所大学"，背后其实发生了一段侦探式的连续推理：AI先要在茫茫文件海洋中找到"《盗梦空间》是谁导演的"这条线索，再顺着这条线索翻出诺兰的个人履历，最终找到那所大学的名字。这种"接力查资料"的过程，研究者们称之为"迭代检索增强生成"，可以把它理解为一个不断拿着新线索去图书馆翻查更多资料的侦探。

问题在于，当这位AI侦探给出答案时，它通常只会告诉你"我是从第1、4、7号文件里得出这个结论的"，却没有告诉你具体在哪一页、哪一行。对于医疗、法律、金融这类高风险场景，用户需要亲自翻开三份文件，在几十上百页中苦苦寻找那条关键证据，这个过程极其费时费力。更糟糕的是，现实中的文件往往不是纯文字——幻灯片里的流程图箭头、PDF里的数据柱状图、网页里的信息栏表格，这些视觉化的内容一旦被AI系统转成文字，其中的空间关系和视觉逻辑就永远消失了，就像把一张地图念成文字，你根本无法再从文字里还原出方向感。

正是为了解决这两个棘手问题，来自北京大学与腾讯的研究团队提出了一套名为"证据链"（Chain of Evidence，简称CoE）的全新框架，并将其发表于SIGIR '26。这套系统的核心思路可以用一句话概括：不把文件转成文字再分析，而是直接看文件的截图，然后在截图上画出方框，精确标出答案来自哪个位置，并把整个推理的每一步都用箭头串联起来，让用户一眼就能验证AI的推理过程是否合理。

一、侦探案桌上堆满了截图而不是文字稿

传统的AI检索系统就像一个只会读文字的侦探——每次接到委托，助手都要先把所有证据（PDF、网页、PPT）里的文字扒出来，打成一摞纯文本，再交给侦探分析。这个转录过程本身就会出问题：PDF里一张显示销售增长趋势的折线图，被转录成文字后可能就变成了一串毫无意义的数字；幻灯片里用箭头连接的"原因→结果"关系，转成文字后箭头消失，因果关系也跟着消失了。

CoE框架干脆放弃了这种转录流程，让AI侦探直接盯着原始文件的截图看。每一份文件在系统里都以图片形式存在，保留了原本的排版、表格、颜色、箭头和位置关系，就像把真实的书页拍照存档，而不是把书页的内容打字重新录入。这样一来，那些藏在图表里的信息、藏在表格结构里的对应关系、藏在布局里的逻辑顺序，都能被完整保留下来。

承担"看图找证据"任务的是一类叫做"视觉语言模型"（VLM）的AI，它既能读懂图片又能理解文字，相当于一个既懂摄影又懂阅读的全能侦探。研究团队选用了Qwen3-VL系列模型作为核心引擎，并在此基础上进行了专项训练，让它掌握一项特殊技能：不仅要说出答案，还要在截图上画出精确的矩形框，标出证据的具体位置，用像素坐标（x1, y1, x2, y2）来表达"答案就在这里"。

在实际工作中，系统接到一个多步骤问题后，上游的检索器会先从文件库里筛选出最可能包含答案的5份文件截图，摆在AI侦探的案桌上。侦探看着这5张截图和问题，开始分析：第一步要看哪张图、在哪个区域找什么信息？第二步又该看哪张图、继续找什么？每一步都会输出被选中的图片编号、证据区域的边界框坐标，以及一句话说明"这一步我在找什么"。整个推理链条以结构化的JSON格式输出，最终呈现给用户的不只是一个答案，而是一条完整的视觉推理路径——哪张图→哪个框→哪张图→哪个框→最终答案，每一环都清晰可见，可随时点击验证。

二、给侦探准备的两套练习题库

为了训练和评估这套系统，研究团队面临一个现实困境：现有的多步骤问答数据集只有文字标注，没有"答案在图片的哪个位置"这种视觉定位标注。于是团队自己动手建了一套大规模数据集，命名为Wiki-CoE。

Wiki-CoE的原料来自一个已有的多步骤问答数据集"2WikiMultiHopQA"，其中包含大量需要查阅两到四份维基百科页面才能回答的问题。团队的工作是把这些问题与答案所在的维基百科页面截图对应起来，并标注出答案具体出现在截图的哪个像素区域。

具体操作过程颇费心思。团队使用了一种叫Selenium WebDriver的网页自动化工具，像真实用户访问网站一样把76000个维基百科页面截成高清图片，完整保留了页面原有的CSS样式、图片、表格和信息栏。由于逐一截图所有涉及的维基百科页面代价太高，团队按照每个实体在题库中被引用的频次排序，优先处理"出镜率"最高的那些实体，以最小的资源消耗覆盖最多的问题。

标注环节则依赖原始数据集提供的"支撑事实"——每道题的标注中写明了答案的根据是哪个句子。系统会扫描截图对应的网页，把那个句子和页面上渲染出来的文字元素（段落、列表项、表格单元格、图说、信息栏）逐一比对，找到最匹配的那个元素，再读取它在截图坐标系里的像素位置，生成边界框标注。如果某条证据无法在截图里找到对应的有效区域，这条样本就会被过滤掉，确保每条发布的样本都有真实可信的像素级标注。

经过严格的质量筛选，最终的Wiki-CoE包含70418道多步骤问题，训练集和测试集各约35000道，两部分在实体链层面完全不重叠，也就是说测试集里的推理路径在训练集里完全没有出现过。整个数据集共引用了60518张独特的证据截图，标注了175410个边界框，平均每道题需要2.49个边界框。题目类型涵盖四类：比较类（对比两个实体的某个属性）、推理类（从已有知识逻辑推导）、组合类（整合多条独立事实）和桥接比较类（先找到一个"桥接实体"再进行比较，这类题最为复杂）。

除了自建的Wiki-CoE，团队还引入了一个已有的数据集SlideVQA作为第二个考场。SlideVQA包含2619套演示幻灯片（约52000张图片），问题需要跨越多张幻灯片综合信息才能回答。这类幻灯片与维基百科网页有本质不同——幻灯片上的信息往往以自由布局呈现，流程图的箭头方向、数据图表的坐标轴对应关系、时间轴上的节点分布，这些都是纯粹的视觉逻辑，根本无法通过文字识别工具完整提取，因此被研究团队作为压力测试场景使用。

三、分两阶段训练出来的视觉侦探

研究团队对Qwen3-VL的训练遵循了一套"先学单步、再学多步"的课程设计，就像武术教学先练马步再打套路，顺序不能颠倒。

第一阶段专注于单步视觉定位能力的建立。在这个阶段，模型面对的任务相对简单：给定一张文件截图和一个问题，找出截图中包含答案的那个区域，输出边界框坐标。通过大量这类训练，模型逐渐学会了如何在一张复杂的页面截图中，把视线精确锁定到某一个文字段落、表格单元格或图表区域，并用像素坐标描述它的位置。这种能力是后续所有推理的基础——如果连"指出答案在哪里"都做不到，多步推理就无从谈起。

第二阶段在第一阶段训练好的模型基础上，引入多步推理与多候选图片的挑战。模型现在要同时处理5张候选截图，在它们之间建立推理链条，一步一步锁定证据。为了防止模型偷懒（例如总是倾向于从第一张图里找答案），研究团队在训练时打乱了候选图片的顺序，让模型无法依赖位置规律，必须真正理解每张图的内容再做判断。

除了两阶段课程设计之外，训练时还引入了三种数据增强策略来提升鲁棒性。空间增强对截图施加随机裁剪、平移和长宽比变化，同时同步调整边界框坐标，让模型学会不依赖绝对位置、而是根据相对视觉关系判断证据区域。分辨率变化则让模型在训练时见到不同尺寸的输入图片，培养它在高分辨率（适合阅读密集文字）和低分辨率（适合理解大版面布局）之间灵活切换的能力。证据顺序扰乱则在不改变推理逻辑顺序的前提下，打乱候选证据的呈现顺序，进一步削弱位置偏见。

四、在两个考场上的实战成绩

研究团队设计了三个评估维度。第一个是"答案准确率"，即最终给出的答案是否正确，用精确匹配（EM）来衡量。第二个是"证据定位准确率"（Loc-Acc），要求模型不仅选对了哪张图，还要把边界框画对——判定标准是预测框与真实框的交并比不低于0.3，或者预测框的中心点落在真实框内。第三个是"推理链准确率"（Chain-Acc），验证模型是否按正确顺序选择了正确的文件，整条推理链要和标准答案吻合。

在Wiki-CoE的测试中，经过完整训练的8B规模模型（CoE-8B）取得了82.3%的答案准确率、94.4%的推理链准确率和80.4%的证据定位准确率。作为对比参照，几个强劲的竞争对手表现各有侧重：GPT-5在答案准确率上达到81.2%，与CoE-8B相近，但推理链准确率只有68.1%，证据定位准确率更是仅有31.7%；Qwen3-VL-235B（一个参数量是CoE-8B约29倍的超大模型）答案准确率为78.6%，推理链准确率66.9%，证据定位准确率只有7.4%，定位能力几乎是一张白纸。纯文字方法中表现最好的KiRAG答案准确率为60.2%，而且完全没有边界框定位能力。

这组数据揭示了一个重要事实：答案说对和能说清楚"为什么说对"是两种截然不同的能力，一个模型可以靠广博的背景知识猜到正确答案，却完全没能力追踪自己的推理路径。CoE的专项训练恰恰弥补了这个缺口。

在SlideVQA这个更难的视觉推理考场上，差距变得更加鲜明。CoE-8B达到58.8%的答案准确率、87.5%的推理链准确率和61.0%的证据定位准确率。GPT-5和Qwen3-VL-235B在答案准确率上分别拿到58.5%和58.3%，与CoE-8B旗鼓相当，但推理链准确率只有55.4%和51.2%，证据定位准确率则分别只有34.1%和6.8%。而OCR文字方法在这个数据集上最高只能到39.4%的答案准确率，因为幻灯片里的视觉逻辑根本无法被文字识别工具捕捉。

研究团队进一步把SlideVQA的测试题按视觉复杂度分成三类来分析。对于以文字为主的幻灯片（主要是要点列表和标题），CoE-8B拿到61%的准确率，而OCR方法拿到55%，差距约6个百分点——因为这类幻灯片的信息本来就主要在文字里，OCR损失的视觉信息相对有限。然而对于以流程图、组织架构图和循环图为主的幻灯片，OCR方法的准确率骤降至28%，因为这类图表里的语义完全由箭头、连线等视觉元素承载，一旦丢失就什么都没了；而CoE-8B在同样的测试下保持了56.5%，两者差距扩大到28.5个百分点，这直接证明了视觉推理在某些场景下不是锦上添花，而是不可或缺的基础能力。对于包含数据图表和信息图的幻灯片，CoE-8B达到59%，而OCR方法因为无法将轴标签与数据点正确对应，经常凭空捏造数值，准确率更低。

五、不同题型和推理深度下的表现差异

研究团队在Wiki-CoE的测试集上按题目类型和推理步数做了细致的分解分析，结果揭示了几个有意思的规律。

桥接比较类和普通比较类问题在答案准确率上最高，分别达到89.5%和86.8%。这类题目往往需要在表格或信息栏里对比属性，而维基百科的表格结构布局规整，视觉提示（例如列对齐、行分隔）为模型提供了强烈的定位线索。组合类问题在推理链准确率上最为突出，达到99.4%，同时定位准确率也达到82.5%。

然而推理类问题暴露了一个深层矛盾：模型几乎总能找到正确的文件（推理链准确率99.5%），却只有30.5%的答案准确率和38.4%的定位准确率。这种"知道去哪里翻，但翻到了之后却说不清楚"的现象，指向一个本质困难：推理型问题的答案并不直接写在某个文字段落里，而是需要在脑子里做逻辑运算才能得出，这个"运算过程"在文件截图上根本没有对应的视觉区域可以框选。模型擅长做"找到写着这件事的那个地方"，却不擅长做"推断出文件里没有直接写出来的那个结论"。

从推理步数来看，2步推理问题的推理链准确率为96.4%，4步及以上问题下降到88.2%，差了约8个百分点，说明推理链越长，中间某一步出错的概率就越高，错误会沿着链条传播。不过有意思的是，两类问题的定位准确率几乎相同（2步80.3%，4步80.5%），这意味着一旦模型在每一步都成功选对了文件，它定位边界框的能力不会因为链条变长而退化。换句话说，提高多步推理性能的关键在于减少"选错文件"的概率，而不是提升"找到正确文件后画框"的能力。

六、拆开来看哪个零件最关键

为了搞清楚最终性能来自哪些组件的贡献，团队做了一系列"去掉某个零件看会怎样"的消融实验。

先去掉第一阶段（单步训练）：答案准确率在Wiki-CoE上下降1.2个百分点，在SlideVQA上下降3.6个百分点，但定位准确率的损失更大——Wiki-CoE从80.4%降到73.1%，SlideVQA从61.0%降到53.2%。这印证了"先学马步"的必要性，单步视觉定位能力的缺失会直接拖累多步推理的精确性。改用"混合训练"（把单步和多步数据放在一起同时训练，没有阶段区分）的效果也不如两阶段分开训练，定位准确率在Wiki-CoE上只有75.9%，在SlideVQA上只有56.0%，说明同时优化基础能力和高阶能力会产生干扰，分阶段训练能让模型先把基础打牢再扩展能力。

再逐个去掉三种数据增强策略来看。去掉空间增强对Wiki-CoE的答案准确率几乎没影响，但Chain-Acc降了2.1个点，Loc-Acc降了4.8个点；在SlideVQA上损失更大，包括4.1个点的答案准确率和6.5个点的定位准确率。这说明维基百科页面布局相对固定，模型可以部分依赖位置规律，而幻灯片布局千变万化，空间几何不变性的训练对幻灯片至关重要。去掉分辨率变化在两个数据集上都带来稳定的性能下降，说明多尺度视觉感知不只是提升OCR能力的手段，更是保证证据定位精度的必要条件。去掉证据顺序扰乱的影响相对较小，但也在两个数据集上造成了可见的下滑，尤其是推理链准确率。

输入分辨率的影响格外显著。将输入分辨率从默认值降到512×512像素后，Wiki-CoE的答案准确率下降10.1个点，推理链准确率下降13.4个点，定位准确率下降16个点，因为维基百科页面上的关键信息往往以小字体藏在密集的表格和信息栏里，低分辨率会直接让这些内容变成模糊的像素块。相比之下SlideVQA受低分辨率的影响稍小（答案准确率下降3.4个点），因为幻灯片上的文字通常更大，图形元素也更宏观。将分辨率提升到1536×1536后，两个数据集的性能都进一步改善，验证了更高分辨率确实有助于读取细粒度的视觉证据。

最直接的对照实验是"只用文字输入"的基线：把截图通过OCR转成文字再交给语言模型处理，模型也就完全没有办法输出边界框了。这种做法在Wiki-CoE上的答案准确率只有56.3%，在SlideVQA上只有36.5%，比CoE-8B低了约26个点和22个点。这个数字清楚地说明了视觉信息对于复杂文件理解的必要性，文字转录所造成的信息损失是难以弥补的。

七、计算成本与实际部署

任何新技术都需要回答一个现实问题：多花的代价值不值？研究团队的效率测试显示，在A800 GPU上，CoE-8B处理一个需要3步推理的问题平均耗时5.6秒，而纯文字的IRCOT方法耗时3.2秒，内存占用分别为28GB和14GB，计算量约为IRCOT的2.1倍。这个额外代价换来的是完整的视觉定位能力，在需要验证来源的高风险场景中，这笔账是划算的。

研究团队还测试了4-bit量化版本（CoE-8B-4bit）：将模型权重压缩到4位精度后，内存占用从28GB降到16GB，降幅达43%，延迟从5.6秒降到4.3秒，而答案准确率的损失小于1个百分点。16GB的内存需求让这套系统可以在配备专业显卡的消费级计算机上运行，大幅降低了部署门槛。作为对比，调用GPT-5 API的平均延迟是13.7秒（包含网络传输时间），Qwen3-VL-235B是10.4秒，而CoE-8B本地运行只需5.6秒，在延迟上反而更有优势。

归根结底，这项研究做的事情可以用一个侦探的比喻来串起来：过去AI侦探收到案件材料后，先让文书把所有纸质证据誊录成文字，再开始分析，结论是"凶器在第7份证据里"——你还得自己去翻那份文件才能找到凶器。CoE让侦探直接看原始照片，指着相片里的具体区域说"就是这个抽屉里这把刀"，整条推理链——先看哪张照片、在哪个位置发现什么、由此推出什么、再去看哪张照片——全部透明呈现，任何人都可以立刻核实。

这对普通人的生活意味着什么？当AI助手帮你分析医疗报告、法律文件或财务陈述时，你不再需要相信它说的话，而是可以跟着它的视觉推理路径，亲眼确认每一步依据是否真实存在于原始文件中。验证AI结论的成本从"翻遍整份文件"下降到"对着高亮方框看一眼"，这才是CoE想要真正改变的事情。

当然，这套系统并非万能。推理类问题暴露的"选对文件却无法定位答案区域"的困境，指向当前视觉语言模型在处理隐式逻辑推断上的深层局限；多步推理中的错误传播问题也需要更好的纠错机制。研究团队在论文中坦承，未来工作的重点应放在开发长链推理的误差修正方法，以及将这套视觉框架扩展到动态视频内容和交互式界面，朝着更通用的自主智能体方向发展。对这个方向感兴趣的读者，可以通过DOI: 10.1145/3805712.3809540找到完整论文，代码也已在GitHub上公开发布。

Q&A

Q1：证据链（CoE）框架和传统的检索增强生成（RAG）系统有什么核心区别？

A：传统RAG系统先把文件转成文字再分析，最终只给出"答案来自第X号文件"的粗糙引用，用户还得自己去翻文件找证据。CoE直接处理文件截图，不做文字转录，在截图上用像素坐标画出精确的方框标注证据位置，并把整个多步推理的每一步（选了哪张图、框在哪里、推断出什么）连成一条完整的可视化路径，让用户一眼就能核实AI的推理过程是否合理。

Q2：Wiki-CoE数据集是怎么标注边界框的？

A：研究团队使用原始数据集里提供的"支撑句子"标注，自动化地把这些句子与维基百科页面截图上渲染出来的文字元素（段落、表格单元格、信息栏等）进行文本匹配，读取匹配元素在截图坐标系中的像素位置，生成边界框。无法找到有效对应区域的样本会被过滤掉，确保每条样本都有真实可信的视觉定位标注。

Q3：CoE在幻灯片类文件上为什么比OCR方法强那么多？

A：幻灯片上大量信息以视觉形式存在，比如流程图里的箭头方向代表因果关系，时间轴上节点的位置代表先后顺序，数据图表里柱子的高度和轴标签的对应关系代表数值。这些信息一旦被OCR转成文字，空间关系就彻底消失了。CoE直接看截图，能理解箭头指向、布局位置和图形之间的相对关系，因此在以流程图为主的幻灯片上，CoE的准确率比OCR方法高出28个百分点以上。

多模态检索增强生成视觉语言模型像素级证据定位

分享至