微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

深圳智造！这套AI"侦探系统"让机器看图找答案的准确率暴涨17.7%

多模态大模型视觉检索增强生成层级化强化学习

深圳智造！这套AI"侦探系统"让机器看图找答案的准确率暴涨17.7%

作者：科技行者

2026-04-27 10:15

分享至：

这项由深圳格林实验室与上海交通大学联合发布的研究（arXiv:2604.14967）提出了UniDoc-RL框架，将AI在图文文档中"搜索—甄选—聚焦—答题"的全流程纳入统一强化学习框架。通过层级化动作空间和为每一步操作量身定制的密集奖励机制，UniDoc-RL在3B和7B参数规模模型上均比此前最强基线提升约17.7%，在跨幻灯片推理和精细视觉识别等多类任务上达到新的最优水平。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-04-27 10:15 • 科技行者

这项由深圳格林实验室（Glint Lab）与上海交通大学联合开展的研究，以预印本形式于2026年4月16日发布在arXiv平台，编号为arXiv:2604.14967。研究团队提出了一套名为UniDoc-RL的视觉文档智能检索增强生成框架，为多模态大模型在复杂文档理解任务中的推理能力带来了显著突破。

一、一个让AI"看懂图文文件"的难题

每天，无数办公室里的人都在做同一件事：从一摞厚厚的PPT、报告、图表中，翻找一个特定的数字或结论。这件事对人类来说已经够烦了，对AI来说，则是一道更棘手的难关。

现有的AI助手，哪怕号称能"理解图片"，在面对真实世界的文档时往往表现得像个马虎的助理——它要么把根本不相关的图页递给你，要么盯着整张密密麻麻的幻灯片发呆，完全没注意到答案藏在角落里那个小小的折线图中。这背后的原因并不难理解：传统的视觉RAG系统（可以把它理解为AI的"图书馆+翻译+答题"组合流水线）在三个关键环节上存在明显的短板。

第一个短板是检索不准。负责检索的模块通常只会做粗浅的"关键词匹配"，就像一位图书馆员只看书名不看内容，结果给你搬来的书和问题南辕北辙。第二个短板是看图方式太被动。拿到图之后，AI就把整张图塞进自己的"眼睛"里一股脑处理，完全不管图里百分之九十的内容都是与问题无关的背景噪声。第三个短板是训练信号太稀疏。现有的强化学习方法只在最终答案对不对这一步给出奖励，就好比一位教练在比赛结束后才说"你输了"，却对运动员在跑步姿势、呼吸节奏、转弯技巧上的失误一言不发——这样的训练方式效果自然差强人意。

UniDoc-RL的出现，正是为了同时解决这三个问题。研究团队把整个"找图、看图、答题"的过程，设计成一套环环相扣的侦探破案流程，让AI从粗线条的"撒网捕鱼"一步步收紧到精确的"靶向定位"。

二、侦探的三步推理：搜索、甄别、聚焦

要理解UniDoc-RL的核心设计，可以把它的工作方式想象成一位经验丰富的侦探破案的全过程。

侦探接到案子（用户提问）后，第一步是**广撒线索网**。AI会根据问题生成一段检索关键词，交给外部搜索引擎去大量的图片文档库里捞出一批"嫌疑图片"。这一步求的是广度而非精度，像刑警在案发现场拍摄大量照片，先把所有可能有用的东西都收集起来再说。技术上，这个动作被包裹在`<search>`和`</search>`这对标记之间，系统解析后自动触发检索函数。

然而，搜出来的一批图往往良莠不齐。于是侦探的第二步是**精密甄别**。这是UniDoc-RL最关键的创新之一——它让大视觉语言模型本身担任"甄别专家"，逐一审视搜出来的每一张候选图，结合用户的真实问题判断哪张图最可能藏有答案，然后把不相关的图统统排除。这一步就像侦探把几十份证词过一遍筛子，剔除那些与案情毫无关系的，只留下最有价值的那一份。技术上，这个动作用`<select>`和`</select>`标记包裹，模型输出被选中图片的编号，系统随即只保留这张图用于后续处理。

经过甄别之后，侦探面对的是一张被选中的图，但麻烦还没结束——这张图可能依然信息密集，真正的答案就藏在某个角落里一个小得几乎看不清的图表中。于是第三步是**主动聚焦**。AI不再被动地"看全图"，而是主动圈出一块坐标区域，指令系统把那个区域裁剪下来并放大，就像侦探把某个关键指纹区域用放大镜仔细检查。技术上，这个动作用`<bbox>`和`</bbox>`标记传递坐标，系统执行裁剪和自适应缩放后，将高分辨率的局部图像返回给模型。

这三个动作——搜索、甄选、感知——构成了论文所称的"由粗到细层级化动作空间"。整个流程是循环迭代的：如果一轮操作后信息仍不足，AI可以发起新一轮搜索，直到认为证据充分后输出最终答案，以`<answer>`和`</answer>`包裹。

三、给每一步动作配上专属奖励

设计出这套侦探流程只是成功的一半，另一半难题是：如何训练AI走好每一步？

传统强化学习的做法是只看"案子有没有破"，也就是最终答案对不对。这种方式的问题在于，AI可能在检索这步就走了歪路，但系统不会在那个节点给出纠正信号，只会在最后告诉它"答错了"。错在哪儿？它完全蒙在鼓里。

UniDoc-RL为此设计了一套"密集多奖励"机制，给流程中的每一个关键动作单独打分。

针对搜索质量，研究团队采用了一个叫做NDCG（归一化折损累积增益）的评分方式。可以把它理解为：如果正确答案在搜索结果里排名越靠前，得分越高；如果答案根本没被捞出来，得分就低。为了让这个评分更稳健，系统把同一次对话中多轮搜索的结果交叉合并，然后统一计算分数，避免因单次搜索偶然性导致评分失真。

针对甄选动作，奖励规则相对直接：如果AI从候选图中选出的那张恰好就是包含答案的"黄金图片"，得1分，选错了得0分。这里有一个聪明的细节处理——当候选图里根本没有正确答案时（也就是检索这步本身就没捞到对的图），标准规则会让奖励永远为零，模型无法从中学到任何东西。研究团队为此设计了一种"伪监督"策略：在这种情况下，把排名最靠前的那张候选图临时指定为"代理正确答案"，让模型至少能学到"在这堆图里相对最该选哪张"的判断逻辑。

针对裁剪感知动作，奖励基于IoU（交并比）来计算，可以理解为：AI圈出的那个区域和真正藏有答案的区域，重叠程度越高，得分越高；如果圈偏了或者圈太大把很多无关内容也框进来，得分就低。

除了上述三类过程奖励，系统还保留了两类传统奖励。一类是格式奖励，检查AI的输出是否严格遵循了预定格式（比如标记有没有成对出现、标签名称有没有写错），这保证AI的动作指令能被系统正确解析执行。另一类是结果奖励，由一个独立的评估大模型来判断最终答案是否正确，给出0或1的二元分数。

最终，这五类奖励用一个加权公式合并为总奖励，五个权重系数分别为0.1、0.1、0.1、0.1、0.6——最终答案的正确与否依然占据最大权重，但其他四类奖励共同提供了丰富的过程信号，让训练不再是一个"黑箱"。

四、训练食谱：先打基础，再精调行为

UniDoc-RL的整个训练过程分为两个阶段，就像先教学生记公式，再通过大量练习题磨砺解题直觉。

第一阶段是"监督微调"（SFT），相当于让模型先死记硬背标准答案。研究团队用一个极其强大的教师模型——Qwen3-VL-235B（一个有2350亿参数的巨型多模态大模型）——为训练数据生成高质量的推理轨迹，也就是完整的"搜索→甄选→裁剪→答题"全过程示范。

构建这些示范数据颇有讲究。搜索和甄选动作的生成相对直接，可以按照正常交互流程让教师模型自然产出。但裁剪感知动作的"地面真相"坐标很难凭空生成，因为需要精确知道图中哪个区域才是关键。为此，团队引入了专业文档解析工具Mineru，对每张图进行版面分析，自动检测出段落、表格、图表等区域的候选边界框，然后再让教师模型从这些候选框中选出真正与问题相关的那个，作为裁剪动作的标注答案。

数据的筛选同样经过了严格的多级过滤。第一关是质量关：教师模型生成的轨迹，如果最终答案是错的，直接丢弃。第二关是难度关：只保留那些让"半成品"SFT模型也答不对的样本，把太简单的题目剔除，保证训练集对模型有足够的挑战性。经过这些处理，最终得到12,621条SFT训练样本。

第二阶段是强化学习（RL），基于GRPO（分组相对策略优化）算法。这个算法的核心思路是：让模型对同一道题生成一组（本实验中为5条）不同的回答，然后根据各自的奖励分数计算相对优势，分数高的回答获得更多的学习权重。这样做的好处是不需要额外训练一个价值网络（一种传统RL中用来估计"当前状态有多好"的辅助模型），降低了训练复杂度。RL训练数据共有5,537条，这些样本经过专门筛选，确保都是"检索能找到相关图、但推理或感知步骤容易出错"的难例，也就是最能从RL训练中获益的那类题目。

整个训练在8块英伟达A100 80G显卡上进行，SFT阶段学习率1×10??，训练3轮；RL阶段学习率1×10??，训练1轮，最大上下文长度40,000个token。

五、训练数据从哪里来？

为了让UniDoc-RL有足够广泛的泛化能力，研究团队从五个公开数据集中整合了训练素材，覆盖了各种类型的视觉文档场景。

SlideVQA是一个包含2,600套幻灯片、52,000张图片和14,500对问答的数据集，专门考验跨幻灯片的信息整合能力，包括单跳、多跳和数值推理三类题型。DoubleBench则是一个多语言多模态文档RAG大型数据集，涵盖6种语言的3,276份文档（总计72,880页）和5,168条查询，文档类型包括PDF、扫描件、演示文稿和HTML网页。VisRAG-Bench来源于Common Crawl网页PDF，覆盖16种语言、超过1,200份文档和35,000对问答，包含图表、文本和表格类题目。DUDE是一个跨领域多页文档理解集，涵盖医疗、法律、技术和金融领域，同时包含数字原生文档和扫描件，模拟真实世界文档分析场景。DocBench则专注于评估LLM文档阅读系统，包含229份真实文档和1,102对问答，覆盖学术、金融、政府、法律和新闻领域。

六、实验结果：数字背后的真实差距

为了验证UniDoc-RL的效果，研究团队在三个独立的测试基准上进行了系统评估：SlideVQA（侧重多步骤推理）、ViDoSeek（侧重复杂信息提取）和MMLongBench（侧重精细视觉细节识别）。

对比的基线方法涵盖了从简单到复杂的多个层次。Vanilla RAG直接用原始问题检索图片，让模型直接回答；ReAct采用"思考—行动"循环，能做查询改写和多轮检索；Search-R1(-VL)是将一种文本检索强化学习方法迁移到视觉领域的版本；VRAG-RL是最直接的对比对象，同样结合了视觉感知动作和强化学习框架。

结果数据相当直观。以3B参数规模的模型（基于Qwen2.5-VL-3B-Instruct）为例，VRAG-RL的综合准确率已经是53.5%，而UniDoc-RL达到了71.0%，提升幅度为17.5个百分点。7B参数规模的模型（Qwen2.5-VL-7B-Instruct）上，这一差距同样显著：VRAG-RL为57.1%，UniDoc-RL为74.8%，提升了17.7个百分点。

在各细分任务上，差距更加清晰。在SlideVQA的单跳题上，7B模型的UniDoc-RL达到86.3%，而VRAG-RL只有69.3%。在ViDoSeek的逻辑题上，UniDoc-RL达到78.7%，VRAG-RL为74.8%。在MMLongBench的文本类题目上，UniDoc-RL达到51.5%，VRAG-RL为26.1%，几乎翻倍。

值得关注的是，基于OCR（光学字符识别，也就是先把图里的字提取成文字再处理）的方法在这类任务上表现明显弱于纯视觉方法。这验证了一个直觉：很多文档信息恰恰存在于空间布局、颜色、图形形状等文字提取时会丢失的维度中，纯视觉处理保留了这些信息。

七、拆开来看：每个模块贡献了多少？

研究团队进行了细致的消融实验，一块一块地拆解各组件的贡献。

针对动作空间，团队分别测试了"只有搜索动作"、"搜索+甄选"、"搜索+甄选+感知裁剪"三种配置。结果显示，在3B模型上，仅有搜索动作时综合准确率为66.6%；加入甄选动作后，提升到70.0%；再加入视觉感知裁剪后，进一步达到71.0%。每一步动作都带来了实质性提升，而且这两类动作对不同任务的贡献也有侧重——甄选动作主要帮助需要多步推理的任务（SlideVQA和ViDoSeek），裁剪感知动作主要帮助需要精细视觉识别的任务（MMLongBench）。

针对奖励机制，团队也做了逐步增加奖励项的实验。从只有结果奖励和格式奖励的"Vanilla"配置出发，依次加入检索NDCG奖励、甄选奖励、感知裁剪IoU奖励，综合准确率从69.9%依次提升到70.1%、70.6%、71.0%。每一类奖励的加入都带来了增益，且增益模式与动作贡献的规律相符——甄选奖励主要提升推理任务，感知裁剪奖励主要提升视觉细节任务。

此外，团队还专门分析了甄选动作对检索召回率的改善。在SlideVQA上，纯搜索步骤的召回率为79.7%，加入甄选后提升到85.0%；在ViDoSeek上，从74.8%提升到85.7%；在MMLongBench上，从48.9%提升到52.7%。这说明LVLM驱动的语义甄选，确实能有效弥补粗粒度检索在语义理解上的不足。

八、SFT教会工具的使用，RL磨炼工具的品味

一个很有意思的分析是关于SFT和RL这两个训练阶段对模型行为的不同影响。

研究团队统计了三个测试集上模型触发"裁剪感知"动作的频率。结果发现，纯SFT模型的裁剪频率极低——在ViDoSeek上只有2.4%，远低于教师模型的水平。这印证了一个常见现象：通过模仿示范数据训练的模型往往过于保守，倾向于走"老实看全图"的安全路线，不敢主动触发需要更多决策的裁剪动作。

经过RL训练后，裁剪频率显著提升——在MMLongBench上从约4.0%上升到13.3%，与教师模型的行为高度接近。更重要的是，不仅频率变了，裁剪的质量也变了。SFT模型触发裁剪时，框出来的往往是整张图或大片无关背景，几乎等同于什么都没裁。而RL模型框出的区域明显更精准，能紧密贴合真正包含答案的那个小区域。论文用两组对比图直观展示了这一差异：问到"图中与安全和智慧相关的颜色是什么"时，RL模型精准圈出了颜色标注区域；问到"DISCIPLINED AGILE徽标中有几个黑色箭头"时，RL模型也准确锁定了徽标位置，而SFT模型给出的框范围则宽泛得多，缺乏实用价值。

由此可见，SFT教会了模型"什么时候可以调用裁剪工具"，而RL训练则让模型真正学会了"如何用好这个工具"。两个阶段各司其职，缺一不可。

归根结底，UniDoc-RL做的事情并不神秘——它只是用一套更聪明的方式，让AI在查找和理解图文文件时能像人一样分步骤、有策略地工作：先广泛搜索，再精挑细选，再按需放大，最后作答。它的意义在于，通过将这整个流程纳入强化学习的统一框架，并为每一步操作配备专属的训练信号，让模型真正能把每个环节都做好，而不只是让最终答案勉强正确。

对于普通人而言，这意味着未来的AI文档助手将变得更加可靠。当你把一份百页的行业报告扔给它，问它某个竞争对手在某个季度的某项指标，它不会再给你一堆不相关的页面，也不会盯着整页密密麻麻的内容最终答非所问——而是会迅速翻找、精准定位、放大核实，然后给出一个有据可查的答案。

有兴趣深入了解这套方案技术细节的读者，可以通过arXiv编号2604.14967查阅完整论文，相关数据集和代码也已在论文中标注的HuggingFace和GitHub地址上公开。

---

Q&A

Q1：UniDoc-RL的"甄选动作"和普通的图片检索有什么不同？

A：普通检索依赖关键词匹配，相当于只看书名找书，容易搜出内容不相关的图片。UniDoc-RL的甄选动作则让大视觉语言模型本身来"读"每一张候选图，根据问题的具体语义判断哪张图真正有用，把无关图片过滤掉。实验数据显示，加入甄选后检索召回率在SlideVQA和ViDoSeek上分别提升了约5到11个百分点。

Q2：UniDoc-RL的密集奖励机制和传统强化学习奖励有什么区别？

A：传统强化学习通常只在最终答案对不对时才给奖励，中间步骤的好坏模型无法得到反馈。UniDoc-RL则针对搜索、甄选、裁剪三个中间步骤分别设计了专属奖励（NDCG分数、选中正确图的0/1分、裁剪区域的IoU分），加上格式奖励和结果奖励共五类，让训练信号更密集，模型能更清楚地知道哪一步做对了、哪一步做错了。

Q3：UniDoc-RL在训练时用了多少数据？这些数据从哪里来？

A：训练数据分为两部分：监督微调阶段用了12,621条样本，强化学习阶段用了5,537条样本。数据来源于SlideVQA、DoubleBench、VisRAG-Bench、DocBench和DUDE五个公开数据集，由Qwen3-VL-235B教师模型自动生成推理轨迹，再经过质量过滤和难度过滤两道筛选，确保训练数据既正确又有足够挑战性。

多模态大模型视觉检索增强生成层级化强化学习

分享至