微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 深圳智造!这套AI"侦探系统"让机器看图找答案的准确率暴涨17.7%

深圳智造!这套AI"侦探系统"让机器看图找答案的准确率暴涨17.7%

2026-04-27 10:15
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-04-27 10:15 科技行者

这项由深圳格林实验室(Glint Lab)与上海交通大学联合开展的研究,以预印本形式于2026年4月16日发布在arXiv平台,编号为arXiv:2604.14967。研究团队提出了一套名为UniDoc-RL的视觉文档智能检索增强生成框架,为多模态大模型在复杂文档理解任务中的推理能力带来了显著突破。

一、一个让AI"看懂图文文件"的难题

每天,无数办公室里的人都在做同一件事:从一摞厚厚的PPT、报告、图表中,翻找一个特定的数字或结论。这件事对人类来说已经够烦了,对AI来说,则是一道更棘手的难关。

现有的AI助手,哪怕号称能"理解图片",在面对真实世界的文档时往往表现得像个马虎的助理——它要么把根本不相关的图页递给你,要么盯着整张密密麻麻的幻灯片发呆,完全没注意到答案藏在角落里那个小小的折线图中。这背后的原因并不难理解:传统的视觉RAG系统(可以把它理解为AI的"图书馆+翻译+答题"组合流水线)在三个关键环节上存在明显的短板。

第一个短板是检索不准。负责检索的模块通常只会做粗浅的"关键词匹配",就像一位图书馆员只看书名不看内容,结果给你搬来的书和问题南辕北辙。第二个短板是看图方式太被动。拿到图之后,AI就把整张图塞进自己的"眼睛"里一股脑处理,完全不管图里百分之九十的内容都是与问题无关的背景噪声。第三个短板是训练信号太稀疏。现有的强化学习方法只在最终答案对不对这一步给出奖励,就好比一位教练在比赛结束后才说"你输了",却对运动员在跑步姿势、呼吸节奏、转弯技巧上的失误一言不发——这样的训练方式效果自然差强人意。

UniDoc-RL的出现,正是为了同时解决这三个问题。研究团队把整个"找图、看图、答题"的过程,设计成一套环环相扣的侦探破案流程,让AI从粗线条的"撒网捕鱼"一步步收紧到精确的"靶向定位"。

二、侦探的三步推理:搜索、甄别、聚焦

要理解UniDoc-RL的核心设计,可以把它的工作方式想象成一位经验丰富的侦探破案的全过程。

侦探接到案子(用户提问)后,第一步是**广撒线索网**。AI会根据问题生成一段检索关键词,交给外部搜索引擎去大量的图片文档库里捞出一批"嫌疑图片"。这一步求的是广度而非精度,像刑警在案发现场拍摄大量照片,先把所有可能有用的东西都收集起来再说。技术上,这个动作被包裹在`<search>`和`</search>`这对标记之间,系统解析后自动触发检索函数。

然而,搜出来的一批图往往良莠不齐。于是侦探的第二步是**精密甄别**。这是UniDoc-RL最关键的创新之一——它让大视觉语言模型本身担任"甄别专家",逐一审视搜出来的每一张候选图,结合用户的真实问题判断哪张图最可能藏有答案,然后把不相关的图统统排除。这一步就像侦探把几十份证词过一遍筛子,剔除那些与案情毫无关系的,只留下最有价值的那一份。技术上,这个动作用`<select>`和`</select>`标记包裹,模型输出被选中图片的编号,系统随即只保留这张图用于后续处理。

经过甄别之后,侦探面对的是一张被选中的图,但麻烦还没结束——这张图可能依然信息密集,真正的答案就藏在某个角落里一个小得几乎看不清的图表中。于是第三步是**主动聚焦**。AI不再被动地"看全图",而是主动圈出一块坐标区域,指令系统把那个区域裁剪下来并放大,就像侦探把某个关键指纹区域用放大镜仔细检查。技术上,这个动作用`<bbox>`和`</bbox>`标记传递坐标,系统执行裁剪和自适应缩放后,将高分辨率的局部图像返回给模型。

这三个动作——搜索、甄选、感知——构成了论文所称的"由粗到细层级化动作空间"。整个流程是循环迭代的:如果一轮操作后信息仍不足,AI可以发起新一轮搜索,直到认为证据充分后输出最终答案,以`<answer>`和`</answer>`包裹。

三、给每一步动作配上专属奖励

设计出这套侦探流程只是成功的一半,另一半难题是:如何训练AI走好每一步?

传统强化学习的做法是只看"案子有没有破",也就是最终答案对不对。这种方式的问题在于,AI可能在检索这步就走了歪路,但系统不会在那个节点给出纠正信号,只会在最后告诉它"答错了"。错在哪儿?它完全蒙在鼓里。

UniDoc-RL为此设计了一套"密集多奖励"机制,给流程中的每一个关键动作单独打分。

针对搜索质量,研究团队采用了一个叫做NDCG(归一化折损累积增益)的评分方式。可以把它理解为:如果正确答案在搜索结果里排名越靠前,得分越高;如果答案根本没被捞出来,得分就低。为了让这个评分更稳健,系统把同一次对话中多轮搜索的结果交叉合并,然后统一计算分数,避免因单次搜索偶然性导致评分失真。

针对甄选动作,奖励规则相对直接:如果AI从候选图中选出的那张恰好就是包含答案的"黄金图片",得1分,选错了得0分。这里有一个聪明的细节处理——当候选图里根本没有正确答案时(也就是检索这步本身就没捞到对的图),标准规则会让奖励永远为零,模型无法从中学到任何东西。研究团队为此设计了一种"伪监督"策略:在这种情况下,把排名最靠前的那张候选图临时指定为"代理正确答案",让模型至少能学到"在这堆图里相对最该选哪张"的判断逻辑。

针对裁剪感知动作,奖励基于IoU(交并比)来计算,可以理解为:AI圈出的那个区域和真正藏有答案的区域,重叠程度越高,得分越高;如果圈偏了或者圈太大把很多无关内容也框进来,得分就低。

除了上述三类过程奖励,系统还保留了两类传统奖励。一类是格式奖励,检查AI的输出是否严格遵循了预定格式(比如标记有没有成对出现、标签名称有没有写错),这保证AI的动作指令能被系统正确解析执行。另一类是结果奖励,由一个独立的评估大模型来判断最终答案是否正确,给出0或1的二元分数。

最终,这五类奖励用一个加权公式合并为总奖励,五个权重系数分别为0.1、0.1、0.1、0.1、0.6——最终答案的正确与否依然占据最大权重,但其他四类奖励共同提供了丰富的过程信号,让训练不再是一个"黑箱"。

四、训练食谱:先打基础,再精调行为

UniDoc-RL的整个训练过程分为两个阶段,就像先教学生记公式,再通过大量练习题磨砺解题直觉。

第一阶段是"监督微调"(SFT),相当于让模型先死记硬背标准答案。研究团队用一个极其强大的教师模型——Qwen3-VL-235B(一个有2350亿参数的巨型多模态大模型)——为训练数据生成高质量的推理轨迹,也就是完整的"搜索→甄选→裁剪→答题"全过程示范。

构建这些示范数据颇有讲究。搜索和甄选动作的生成相对直接,可以按照正常交互流程让教师模型自然产出。但裁剪感知动作的"地面真相"坐标很难凭空生成,因为需要精确知道图中哪个区域才是关键。为此,团队引入了专业文档解析工具Mineru,对每张图进行版面分析,自动检测出段落、表格、图表等区域的候选边界框,然后再让教师模型从这些候选框中选出真正与问题相关的那个,作为裁剪动作的标注答案。

数据的筛选同样经过了严格的多级过滤。第一关是质量关:教师模型生成的轨迹,如果最终答案是错的,直接丢弃。第二关是难度关:只保留那些让"半成品"SFT模型也答不对的样本,把太简单的题目剔除,保证训练集对模型有足够的挑战性。经过这些处理,最终得到12,621条SFT训练样本。

第二阶段是强化学习(RL),基于GRPO(分组相对策略优化)算法。这个算法的核心思路是:让模型对同一道题生成一组(本实验中为5条)不同的回答,然后根据各自的奖励分数计算相对优势,分数高的回答获得更多的学习权重。这样做的好处是不需要额外训练一个价值网络(一种传统RL中用来估计"当前状态有多好"的辅助模型),降低了训练复杂度。RL训练数据共有5,537条,这些样本经过专门筛选,确保都是"检索能找到相关图、但推理或感知步骤容易出错"的难例,也就是最能从RL训练中获益的那类题目。

整个训练在8块英伟达A100 80G显卡上进行,SFT阶段学习率1×10??,训练3轮;RL阶段学习率1×10??,训练1轮,最大上下文长度40,000个token。

五、训练数据从哪里来?

为了让UniDoc-RL有足够广泛的泛化能力,研究团队从五个公开数据集中整合了训练素材,覆盖了各种类型的视觉文档场景。

SlideVQA是一个包含2,600套幻灯片、52,000张图片和14,500对问答的数据集,专门考验跨幻灯片的信息整合能力,包括单跳、多跳和数值推理三类题型。DoubleBench则是一个多语言多模态文档RAG大型数据集,涵盖6种语言的3,276份文档(总计72,880页)和5,168条查询,文档类型包括PDF、扫描件、演示文稿和HTML网页。VisRAG-Bench来源于Common Crawl网页PDF,覆盖16种语言、超过1,200份文档和35,000对问答,包含图表、文本和表格类题目。DUDE是一个跨领域多页文档理解集,涵盖医疗、法律、技术和金融领域,同时包含数字原生文档和扫描件,模拟真实世界文档分析场景。DocBench则专注于评估LLM文档阅读系统,包含229份真实文档和1,102对问答,覆盖学术、金融、政府、法律和新闻领域。

六、实验结果:数字背后的真实差距

为了验证UniDoc-RL的效果,研究团队在三个独立的测试基准上进行了系统评估:SlideVQA(侧重多步骤推理)、ViDoSeek(侧重复杂信息提取)和MMLongBench(侧重精细视觉细节识别)。

对比的基线方法涵盖了从简单到复杂的多个层次。Vanilla RAG直接用原始问题检索图片,让模型直接回答;ReAct采用"思考—行动"循环,能做查询改写和多轮检索;Search-R1(-VL)是将一种文本检索强化学习方法迁移到视觉领域的版本;VRAG-RL是最直接的对比对象,同样结合了视觉感知动作和强化学习框架。

结果数据相当直观。以3B参数规模的模型(基于Qwen2.5-VL-3B-Instruct)为例,VRAG-RL的综合准确率已经是53.5%,而UniDoc-RL达到了71.0%,提升幅度为17.5个百分点。7B参数规模的模型(Qwen2.5-VL-7B-Instruct)上,这一差距同样显著:VRAG-RL为57.1%,UniDoc-RL为74.8%,提升了17.7个百分点。

在各细分任务上,差距更加清晰。在SlideVQA的单跳题上,7B模型的UniDoc-RL达到86.3%,而VRAG-RL只有69.3%。在ViDoSeek的逻辑题上,UniDoc-RL达到78.7%,VRAG-RL为74.8%。在MMLongBench的文本类题目上,UniDoc-RL达到51.5%,VRAG-RL为26.1%,几乎翻倍。

值得关注的是,基于OCR(光学字符识别,也就是先把图里的字提取成文字再处理)的方法在这类任务上表现明显弱于纯视觉方法。这验证了一个直觉:很多文档信息恰恰存在于空间布局、颜色、图形形状等文字提取时会丢失的维度中,纯视觉处理保留了这些信息。

七、拆开来看:每个模块贡献了多少?

研究团队进行了细致的消融实验,一块一块地拆解各组件的贡献。

针对动作空间,团队分别测试了"只有搜索动作"、"搜索+甄选"、"搜索+甄选+感知裁剪"三种配置。结果显示,在3B模型上,仅有搜索动作时综合准确率为66.6%;加入甄选动作后,提升到70.0%;再加入视觉感知裁剪后,进一步达到71.0%。每一步动作都带来了实质性提升,而且这两类动作对不同任务的贡献也有侧重——甄选动作主要帮助需要多步推理的任务(SlideVQA和ViDoSeek),裁剪感知动作主要帮助需要精细视觉识别的任务(MMLongBench)。

针对奖励机制,团队也做了逐步增加奖励项的实验。从只有结果奖励和格式奖励的"Vanilla"配置出发,依次加入检索NDCG奖励、甄选奖励、感知裁剪IoU奖励,综合准确率从69.9%依次提升到70.1%、70.6%、71.0%。每一类奖励的加入都带来了增益,且增益模式与动作贡献的规律相符——甄选奖励主要提升推理任务,感知裁剪奖励主要提升视觉细节任务。

此外,团队还专门分析了甄选动作对检索召回率的改善。在SlideVQA上,纯搜索步骤的召回率为79.7%,加入甄选后提升到85.0%;在ViDoSeek上,从74.8%提升到85.7%;在MMLongBench上,从48.9%提升到52.7%。这说明LVLM驱动的语义甄选,确实能有效弥补粗粒度检索在语义理解上的不足。

八、SFT教会工具的使用,RL磨炼工具的品味

一个很有意思的分析是关于SFT和RL这两个训练阶段对模型行为的不同影响。

研究团队统计了三个测试集上模型触发"裁剪感知"动作的频率。结果发现,纯SFT模型的裁剪频率极低——在ViDoSeek上只有2.4%,远低于教师模型的水平。这印证了一个常见现象:通过模仿示范数据训练的模型往往过于保守,倾向于走"老实看全图"的安全路线,不敢主动触发需要更多决策的裁剪动作。

经过RL训练后,裁剪频率显著提升——在MMLongBench上从约4.0%上升到13.3%,与教师模型的行为高度接近。更重要的是,不仅频率变了,裁剪的质量也变了。SFT模型触发裁剪时,框出来的往往是整张图或大片无关背景,几乎等同于什么都没裁。而RL模型框出的区域明显更精准,能紧密贴合真正包含答案的那个小区域。论文用两组对比图直观展示了这一差异:问到"图中与安全和智慧相关的颜色是什么"时,RL模型精准圈出了颜色标注区域;问到"DISCIPLINED AGILE徽标中有几个黑色箭头"时,RL模型也准确锁定了徽标位置,而SFT模型给出的框范围则宽泛得多,缺乏实用价值。

由此可见,SFT教会了模型"什么时候可以调用裁剪工具",而RL训练则让模型真正学会了"如何用好这个工具"。两个阶段各司其职,缺一不可。

归根结底,UniDoc-RL做的事情并不神秘——它只是用一套更聪明的方式,让AI在查找和理解图文文件时能像人一样分步骤、有策略地工作:先广泛搜索,再精挑细选,再按需放大,最后作答。它的意义在于,通过将这整个流程纳入强化学习的统一框架,并为每一步操作配备专属的训练信号,让模型真正能把每个环节都做好,而不只是让最终答案勉强正确。

对于普通人而言,这意味着未来的AI文档助手将变得更加可靠。当你把一份百页的行业报告扔给它,问它某个竞争对手在某个季度的某项指标,它不会再给你一堆不相关的页面,也不会盯着整页密密麻麻的内容最终答非所问——而是会迅速翻找、精准定位、放大核实,然后给出一个有据可查的答案。

有兴趣深入了解这套方案技术细节的读者,可以通过arXiv编号2604.14967查阅完整论文,相关数据集和代码也已在论文中标注的HuggingFace和GitHub地址上公开。

---

Q&A

Q1:UniDoc-RL的"甄选动作"和普通的图片检索有什么不同?

A:普通检索依赖关键词匹配,相当于只看书名找书,容易搜出内容不相关的图片。UniDoc-RL的甄选动作则让大视觉语言模型本身来"读"每一张候选图,根据问题的具体语义判断哪张图真正有用,把无关图片过滤掉。实验数据显示,加入甄选后检索召回率在SlideVQA和ViDoSeek上分别提升了约5到11个百分点。

Q2:UniDoc-RL的密集奖励机制和传统强化学习奖励有什么区别?

A:传统强化学习通常只在最终答案对不对时才给奖励,中间步骤的好坏模型无法得到反馈。UniDoc-RL则针对搜索、甄选、裁剪三个中间步骤分别设计了专属奖励(NDCG分数、选中正确图的0/1分、裁剪区域的IoU分),加上格式奖励和结果奖励共五类,让训练信号更密集,模型能更清楚地知道哪一步做对了、哪一步做错了。

Q3:UniDoc-RL在训练时用了多少数据?这些数据从哪里来?

A:训练数据分为两部分:监督微调阶段用了12,621条样本,强化学习阶段用了5,537条样本。数据来源于SlideVQA、DoubleBench、VisRAG-Bench、DocBench和DUDE五个公开数据集,由Qwen3-VL-235B教师模型自动生成推理轨迹,再经过质量过滤和难度过滤两道筛选,确保训练数据既正确又有足够挑战性。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • 南方科技大学等机构联手破解AI推理训练难题:让大模型"一次思考"就学会解题

    南方科技大学等机构联手破解AI推理训练难题:让大模型"一次思考"就学会解题

    本文介绍了由南方科技大学等机构于2026年4月发表的研究(arXiv:2604.08865),提出了名为SPPO的大模型推理训练新方法。该方法将推理任务重新建模为"序列级情境赌博机",用一个轻量级价值模型预测题目难度,以单次采样替代GRPO的多次采样,解决了标准PPO的"尾部效应"问题。实验显示,SPPO在数学基准测试上超越GRPO,训练速度提升约5.9倍,配合小尺寸价值模型还能显著降低显存占用。

  • 香港科技大学数学系研究者:扩散模型原来是一个"魔法恒等式"拆成了两半

    香港科技大学数学系研究者:扩散模型原来是一个"魔法恒等式"拆成了两半

    这项由香港科技大学数学系完成的研究(arXiv:2604.10465,2026年ICLR博客论文赛道)提出了一种从朗之万动力学视角理解扩散模型的统一框架。研究指出,扩散模型的前向加噪和逆向去噪过程,本质上是朗之万动力学这一"分布恒等操作"被拆成了两半。在这个视角下,VP、VE-Karras和Flow Matching等不同参数化的模型可被精确互译,SDE与ODE版本可被统一解释,扩散模型相对VAE的理论优势得以阐明,Flow Matching与得分匹配的等价性也得到了严格论证。

  • 中国人民大学研究团队打造的"AI科学家":让机器自主完成几十小时的科研工程,它是怎么做到的?

    中国人民大学研究团队打造的"AI科学家":让机器自主完成几十小时的科研工程,它是怎么做到的?

    中国人民大学高岭人工智能学院等机构联合开发了AiScientist系统,旨在让AI自主完成机器学习研究的完整工程流程,包括读论文、搭环境、写代码、跑实验和迭代调试,全程无需人工干预。系统核心设计是"薄控制、厚状态":由轻量指挥官协调专业代理团队,通过"文件即通道"机制将所有中间成果持久化存储,使每轮工作都能建立在前一轮积累的基础上。在PaperBench和MLE-Bench Lite两个基准上,系统表现显著优于现有最强对比系统,论文发布于2026年4月。

  • 字节跳动发布GRN:像人类画家一样"边画边改"的AI图像生成新范式

    字节跳动发布GRN:像人类画家一样"边画边改"的AI图像生成新范式

    这项由字节跳动发布的研究(arXiv:2604.13030)提出了生成式精化网络(GRN),一套模仿人类画家"边画边改"直觉的视觉生成新框架。其核心包括两项创新:层级二进制量化(HBQ)通过多轮二分逼近实现近乎无损的离散图像编码,以及全局精化机制允许模型在每一步对整张图像的所有位置重新预测并随时纠错,从根本上解决了自回归模型的误差积累问题。配合基于熵值的自适应步数调度,GRN在ImageNet图像重建(rFID 0.56)和生成(gFID 1.81)上均创下新纪录,并在文本生成图像和视频任务上以20亿参数达到同等规模方法的领先水平。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-