微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 视觉感知型RAG:通过强化学习和迭代推理赋能视觉丰富信息理解——来自阿里巴巴通义实验室和中科大的最新研究

视觉感知型RAG:通过强化学习和迭代推理赋能视觉丰富信息理解——来自阿里巴巴通义实验室和中科大的最新研究

2025-06-02 12:22
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-02 12:22 科技行者

这项由中国科学技术大学(USTC)脑启发智能感知与认知教育部重点实验室和阿里巴巴通义实验室联合完成的研究,发表于2025年5月的技术报告中。研究由王秋晨、丁瑞雪、曾宇、陈泽辉、陈林、王世航、谢鹏君、黄飞和赵峰等学者共同完成,论文已在arXiv预印本平台公开,可通过https://github.com/Alibaba-NLP/VRAG获取完整代码和论文。

一、视觉丰富信息处理:当前检索增强生成方法的困境

想象你在寻找一个藏在仓库里的宝藏。传统的方式是你拿着手电筒,照着看到的地方搜索,但仓库太大了,手电筒光线有限,你看不清远处的物品,也无法判断哪些区域最可能藏有宝藏。现在,如果有一个能智能调节焦距、自动放大关键区域并帮你理清思路的智能手电筒,你寻宝的效率会大大提升。这正是本研究所做的事情,只不过它面对的是"视觉信息的海洋",而不是仓库。

在人工智能领域,检索增强生成(RAG)技术让语言模型能够利用外部信息解决各种问题。但传统的基于文本的RAG方法在处理视觉丰富信息时面临严峻挑战。想象一下,当你拿到一份包含图表、图像和复杂排版的报告时,如果只能读取其中的文字,你会错过多少关键信息?这正是传统文本RAG的局限。

尽管研究人员已经开始将RAG引入视觉领域,将视觉-语言模型(VLMs)与搜索引擎集成,但这些视觉RAG方法仍有两个关键短板:一方面,它们缺乏有效推理的能力,无法深入理解复杂的视觉信息;另一方面,它们往往受限于固定的处理流程,无法充分激活模型的基础能力。就像一个人被限制只能用一种固定方式查看文档,无法放大关注细节,也不能缩小获取全局视图。

强化学习(RL)已被证明对模型推理能力的提升非常有效。通过让模型像玩游戏一样不断尝试不同策略并从经验中学习,RL能帮助模型掌握复杂的推理技巧。基于这一认识,本研究提出了VRAG-RL,一个专为复杂视觉信息推理设计的强化学习框架。

二、VRAG-RL:视觉感知型检索增强生成的创新架构

VRAG-RL就像是给视觉语言模型配备了一双智能眼镜,能够自动调节焦距,聚焦于信息密集区域,并从粗略到精细地获取信息。在这个框架下,视觉语言模型可以与搜索引擎互动,在视觉感知标记的帮助下自主采样单轮或多轮推理轨迹,并基于这些样本持续优化。

研究团队首先指出了RL在RAG领域的两个关键限制:一是现有的多模态RAG方法仅仅将图像嵌入到上下文中,导致推理标记分配不足,忽视了视觉特定感知;二是当模型与搜索引擎交互时,由于无法准确表达需求,其查询往往无法检索到相关信息,从而导致性能不佳。

为了解决这些挑战,研究者定义了一个针对视觉丰富输入的动作空间,包括裁剪和缩放等动作,使模型能够从粗略到精细的角度收集信息。想象一下,当你浏览一份复杂的文档时,你会先大致浏览全文,然后放大关注那些看起来重要的部分。VRAG-RL正是模拟了这种人类自然的阅读行为。

此外,为了弥合用户原始查询与检索器之间的差距,研究团队设计了一个简单而有效的奖励机制,将查询重写、检索性能与基于模型的奖励集成在一起。这就像是教会模型不仅要"看得准",还要"问得好",从而大幅提升整体效果。

VRAG-RL使用特别设计的RL策略优化视觉语言模型以执行RAG任务,使模型与真实应用场景更加匹配。这种方法不仅提高了模型处理视觉信息的能力,还增强了其与外部环境交互的效率。

三、技术创新:视觉感知动作空间与精细奖励机制

传统的RAG方法就像是用固定焦距的照相机拍摄复杂场景,无法根据需要调整视角和焦点。相比之下,VRAG-RL引入了视觉感知动作空间,使模型能够像使用专业相机一样,灵活地调整"镜头",从粗到细地捕捉信息。

在这个框架中,策略模型π_θ与环境进行思考-动作-观察(T,A,O)范式的交互。在每次交互中,模型根据前一步及更早的轨迹H_{t-1}生成下一个动作A_t。研究团队使用基于角色的函数来提取视觉感知标记和,其主要目的是选择、裁剪并放大已经在上下文中检索到的图像中的感兴趣区域:

当观察到一个w×h的图像O_k时,感知标记内的边界框[x_min, y_min, x_max, y_max]可以精确描绘感兴趣区域R的位置。然后,系统会将选定的区域R从上下文中的图像标记映射到原始图像,并裁剪出这一区域,再将其作为新的观察结果整合到上下文中。这种简单而有效的"裁剪并重新输入"策略通过直接增加感知分辨率来增强视觉感知性能。

在奖励机制设计方面,研究团队认识到,与传统RL方法仅关注输出结果不同,VRAG-RL强调优化RAG中的检索过程,因为检索质量直接影响整体性能。他们设计了一个包含三个组件的奖励函数:模式奖励、检索效率奖励和基于模型的结果奖励,指导模型高效检索信息并生成高质量答案。

特别值得一提的是检索效率奖励。研究发现,当信息足够时,过长的上下文反而会干扰模型。因此,越早、越全面地检索到相关信息,模型就能构建更连贯、更有信息量的上下文来生成高质量答案。研究团队借鉴归一化折扣累积增益(NDCG)的思想,定义了检索效率奖励,鼓励模型更早地检索到相关信息。

对于模式一致性和基于模型的结果奖励,研究者设计了基于规则的模式奖励,鼓励模型在交互过程中遵循推理模式,而结果奖励则采用模型评估生成答案的正确性,避免了基于规则方法容易陷入局部最优的问题。

最终的奖励函数是这三个组件的加权组合,平衡了各组件的贡献:r_φ = α·r_Ret + β·r_Ans + γ·r_Pat。通过整合这三个组件,VRAG-RL提供了一个全面而精细的评估机制,引导模型优化其推理和检索能力,与真实应用场景紧密对齐。

四、迭代推理的强化学习框架:让视觉语言模型变得更聪明

VRAG-RL应用强化学习来增强多模态RAG代理任务中视觉语言模型的能力。这个框架主要分为两部分:多模态代理的推出过程和多轮交互的强化学习训练策略。

在与外部环境的多轮生成方面,模型通过多个回合与外部环境互动,其中观察结果(即图像)以用户角色插入到轨迹中。这是为了与模型的预训练领域保持一致,因为在预训练中,只有用户标记才能插入图像标记。

当模型检测到标记时,它会提取搜索查询并检索相关图像;当检测到标记时,它会提取视觉感知标记并处理图像;当检测到标记时,它会返回最终生成的轨迹。这种设计使模型能够灵活地在搜索、细节感知和答案生成之间切换,就像人类在解决复杂问题时的自然思考过程。

在训练策略方面,VRAG-RL实现了群组相对策略优化(GRPO)算法,该算法利用多个采样输出的平均奖励作为基线,而不依赖于学习的价值函数。策略模型通过最大化以下目标函数进行优化:

J_GRPO(θ) = E_{x~D,{y_i}^G_{i=1}~π_old(·|x;V)}[...]

在这里,推出模块通过与外部环境交互,为每个输入问题从参考策略π_ref采样一组轨迹{y_1, y_2, ..., y_G}。优势A_{i,t}基于每个组内输出的相对奖励计算。

这种训练方法使模型能够从多样化的交互中学习,并根据不同情境调整其策略,从而更好地完成复杂的推理任务。就像一个探险家不断尝试不同路径并从经验中学习,最终掌握穿越复杂地形的技巧一样。

五、实验验证:VRAG-RL的卓越性能

研究团队在多个具有挑战性的基准测试上进行了广泛实验,结果表明VRAG-RL的表现显著优于现有方法。具体来说,在Qwen2.5-VL-7B上,VRAG-RL比现有方法提高了20%以上;在Qwen2.5-VL-3B上,提升更是达到了30%,充分证明了该方法的有效性。

在主要结果分析中,与纯视觉方法相比,基于OCR的方法在视觉密集型基准测试上显示出明显的局限性。这是因为视觉信息本质上包含无法用文本表示的元素,如元素位置、布局和颜色等。此外,OCR模型的感知能力明显不如当前先进的视觉语言模型,限制了框架的整体性能上限。

基于视觉的方法已被证明是比基于OCR的方法更优雅的解决方案,特别是在与视觉理解相关的任务中。对于视觉领域的基于提示的基线,普通RAG和ReAct表现较差,远远落后于基于RL的基线和本研究的方法。

7B模型相比3B模型拥有更强的感知和理解能力,在各种数据集上表现出色。对于基于RL的基线,VRAG-RL在Qwen2.5-VL-7B-Instruct(34.7→57.1)和Qwen2.5-VL-3B-Instruct(21.3→53.5)上的表现也明显优于search-R1-VL。

在SlideVQA和ViDoSeek上的评估结果证明了模型在各种推理任务中推理能力的显著提升。此外,MMLongBench包含多种视觉元素,表明模型在视觉感知能力方面的提升,这一现象与本研究提出的视觉感知动作空间相关。

各种基准测试的结果证明了本研究方法在检索和推理视觉丰富信息方面的有效性和泛化能力。

六、深入分析:VRAG-RL为何如此有效?

为什么VRAG-RL能够取得如此显著的性能提升?研究团队进行了一系列分析,揭示了其成功的关键因素。

首先,更好的检索促进了高质量生成。VRAG-RL框架显著提高了检索效率,这对构建连贯、信息丰富的上下文至关重要。研究发现,上下文长度对模型性能有重大影响——当上下文过长时,会引入噪声并干扰模型生成准确答案的能力。相反,当相关信息被早期、全面地检索到时,模型可以构建更专注、更有信息量的上下文。与传统的基于提示的重写方法相比,VRAG-RL在检索相关信息方面更为有效,为视觉模型提供了更好的上下文来生成高质量答案。

其次,视觉感知动作空间提供了细粒度的视角。框架中引入的视觉感知动作空间进一步增强了理解能力,使模型能够关注图像中信息密集的区域。实验表明,VRAG-RL不仅在文本任务中表现良好,还在需要视觉感知能力的任务中显示出明显的改进,特别是在布局、图表和图形方面。这一点特别重要,因为考虑到当前计算资源的限制,特别是视觉语言模型的高内存消耗。使用这种动态分辨率策略,模型可以在有限计算资源的约束下实现更详细的感知,而不是简单地最大化原始图像的分辨率。

第三,强化学习帮助模型有效执行多步推理。提示基础方法的一个主要挑战是,随着交互次数的增加,模型遵循指令的能力会减弱。虽然使用SFT预训练有助于模型在预定义模式中进行推理,但它在一定程度上也影响了模型的固有基础能力。为了进一步探索RL在模型中激活多轮推理能力的效果,研究团队比较了有RL和无RL模型的迭代推理性能。结果显示,使用RL的方法有效地减少了无效率并提高了完成率。它指导模型在推理过程的每一步做出最佳决策,使其能够灵活调整策略,面对不同类型的域外视觉信息,从而更好地完成复杂的推理任务。

此外,基于模型的奖励相比基于规则的奖励提供了更稳定的训练。以往的工作通常使用精确匹配作为奖励,这过于严格。与数据相关问题的简短答案不同,模型的回答很难与黄金答案完全匹配,导致训练效率低下。然而,使用召回作为奖励可能导致误判,使模型利用函数并产生重复响应,从而使训练不稳定。相比之下,基于模型的奖励利用评估模型以更灵活的方式评估生成响应的质量和相关性。这种方法不仅更符合实际应用,还提供了更稳定、更有效的训练信号,使VRAG-RL能够在视觉推理任务中实现更稳健的性能。

最后,从时间效率角度看,VRAG-RL与外部环境的多轮交互可能会增加延迟。普通RAG的延迟保持一致,因为它只执行一次搜索并提供答案。基于提示的方法ReAct RAG也展示了多轮交互能力,这归功于模型的基础推理能力。然而,它仅限于两个定义的动作:回答和搜索。由于缺乏足够的感知能力,它往往陷入重复搜索循环。VRAG-RL为模型配备了一个视觉感知空间,可以有效理解视觉丰富的图像。模型可以在检索后快速提取答案,从而避免无效搜索。尽管延迟增加,但由于生成的答案质量更高,使得延迟和准确性之间的权衡在视觉丰富的检索和理解任务中非常有利。

七、对比现有研究与未来展望

VRAG-RL在基于视觉的检索增强生成领域取得了显著进展,但它也建立在一系列重要的先前研究基础上。

传统的基于文本的RAG方法通常涉及设计不同的代理与搜索引擎交互,但它们无法处理日益普及的电子文档中包含的丰富视觉信息。最近,越来越多的研究专注于免OCR检索方法,直接将文本查询与图像对齐。此外,更多的工作开始关注多模态RAG代理,实现更准确的检索和视觉信息提取。VRAG-RL通过将视觉感知动作融入视觉RAG,有效激活了视觉语言模型的推理和理解能力,在这些发展的基础上更进一步。

在强化学习与大型模型的结合方面,推理能力对模型有效解决复杂问题至关重要,而RL被证明是增强这些能力的强大方法。先前的工作将RL应用于语言模型的训练,并逐渐扩展到增强视觉语言模型的推理能力。最近的进展看到RL被广泛应用于训练大型模型驱动的代理。这些代理,特别是RAG代理,需要强大的多步推理能力来有效与外部环境交互。然而,目前仍缺乏专门为多模态迭代推理定制的RL框架,而这对处理视觉丰富信息至关重要。VRAG-RL旨在填补这一空白,引入了一种新型RL框架,使视觉语言模型能够通过视觉感知动作执行迭代推理,从而增强其在复杂多模态检索增强推理任务中的推理能力。

展望未来,研究团队计划引入更多模拟人类处理复杂信息的方式的动作,使模型能够更专注于深度思考。此外,他们还打算利用更先进的模型减少幻觉,进一步提高框架的准确性和可靠性。这些方向将有助于推动多模态人工智能在处理视觉丰富信息方面的能力再上新台阶。

总之,VRAG-RL代表了视觉信息检索、推理和理解领域的重要突破。通过其创新的视觉感知动作空间、精细的奖励机制和强化学习训练框架,它使视觉语言模型能够更有效地与搜索引擎交互,显著增强了它们的推理和检索能力。广泛的评估证明了这种方法在视觉信息推理、检索和理解方面的显著优势,为未来的研究和应用开辟了新的可能性。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。

  • 微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。

  • 用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。

  • 播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-