微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

R1-Searcher++：用强化学习激励大语言模型动态获取知识的新框架

大语言模型强化学习检索增强生成

R1-Searcher++：用强化学习激励大语言模型动态获取知识的新框架

作者：科技行者

2025-05-31 13:35

分享至：

这项研究提出了R1-Searcher++框架，通过两阶段训练策略使大语言模型能像人类一样灵活利用内部知识和外部信息。该方法创新性地采用强化学习激励模型优先使用内部知识，并引入记忆机制将检索到的信息转化为内部知识，实现动态知识获取。实验表明，R1-Searcher++不仅在多步问答任务上表现优异，还大幅减少了检索次数，显著提高了推理效率。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-31 13:35 • 科技行者

在人工智能快速发展的今天，大语言模型(LLM)如同一位博学的朋友，可以回答各种各样的问题。但就像人类一样，这些模型也有"知识盲区"，有时会因为知识有限而胡编乱造（我们称之为"幻觉"）。2025年5月22日，由中国人民大学高瓴人工智能学院的宋华彤、江金浩、田文青等研究团队发表在arXiv（arXiv:2505.17005v1）上的研究"R1-Searcher++: Incentivizing the Dynamic Knowledge Acquisition of LLMs via Reinforcement Learning"，提出了一个创新的解决方案，帮助大语言模型更智能地平衡使用自身知识和外部信息。

想象一下，当你不确定某个问题的答案时，你会怎么做？你可能先尝试回忆自己所知道的信息，如果发现知识不足，才会转向谷歌搜索。更重要的是，一旦你通过搜索获取了新知识，你会把它记在脑子里，下次遇到类似问题就不必再次搜索了。研究团队希望大语言模型也能像人类一样拥有这种能力。

目前的大语言模型虽然强大，但它们的知识是"静态"的——仅限于训练时学到的内容。研究人员开发了各种方法让模型获取外部信息，这类技术被称为"检索增强生成"（RAG）。然而，现有的RAG方法要么成本高昂、泛化能力差，要么完全忽视模型已有的内部知识。就像一个有选择性失忆的人，明明知道答案却还要去查资料，既浪费时间又不够高效。

人民大学研究团队开发的R1-Searcher++框架就像是给大语言模型安装了一个更智能的"大脑操作系统"，它能够：1）判断什么时候应该使用自己的知识，什么时候需要搜索外部信息；2）像人类一样，把新获取的外部知识转化为内部记忆，不断丰富自己的知识库。这就像是模型不仅学会了如何更有效地"查资料"，还学会了如何"记笔记"和"温故知新"。

一、R1-Searcher++的工作原理：两阶段训练策略

R1-Searcher++采用了一个两阶段的训练策略，就像先教会孩子基本的阅读技能，然后再教他如何在图书馆中查找和记忆信息。

第一阶段是"SFT冷启动"（SFT Cold-start）。在这个阶段，研究人员使用精心筛选的数据对模型进行初步训练，就像是给模型提供一本"如何正确提问和回答"的教科书。这个阶段主要是让模型学习正确的格式，比如什么时候使用内部知识（用标签标记），什么时候需要检索外部信息（用标签标记）。这就像是教会模型一种新的语言或协议，让它明白应该怎样表达"我知道这个答案"和"我需要查找这个信息"。

第二阶段是"动态知识获取的强化学习"（RL for Dynamic Knowledge Acquisition）。在这个阶段，模型就像一个在复杂环境中学习的探险家，通过不断尝试和获得反馈来优化自己的行为。研究人员设计了一套奖励机制，当模型做出正确决策时（例如，在知识充足时使用内部知识，在知识不足时寻求外部帮助）就给予奖励，引导模型形成更有效的行为模式。

这个阶段有两个关键创新：首先是"内部知识利用激励"（Internal Knowledge Utilization Encouragement），鼓励模型优先使用自己的知识，只有在必要时才求助于外部资源，就像鼓励学生先思考再查书；其次是"外部知识记忆机制"（External Knowledge Memorization），让模型能够将检索到的外部信息转化为内部知识，不断丰富自己的知识库，就像人类学习新知识后能记在脑子里一样。

二、R1-Searcher++的具体实现：像教孩子学习一样训练AI

让我们深入了解这个框架是如何一步步实现的。想象一下，R1-Searcher++就像是一个正在学习如何高效获取和使用知识的学生，研究人员则是设计课程和评估标准的老师。

在第一阶段（SFT冷启动）中，研究人员使用"拒绝采样"（reject sampling）方法收集符合格式要求的数据。他们只保留那些正确使用了和标签的响应，教模型使用合适的格式表达自己的思考过程。这就像是教学生使用正确的语法和句式来表达自己的想法。

进入第二阶段（强化学习），研究人员设计了一套精巧的奖励函数，包括三个主要部分：

1. 格式奖励（Format reward）：确保模型的回应格式正确。当模型需要调用外部检索器时，它必须在...标签内明确提出查询，并且不能在没有先调用检索的情况下直接生成文档内容。这就像教导学生在引用资料时必须注明出处。

2. 答案奖励（Answer reward）：评估最终答案的正确性。研究人员使用了覆盖精确匹配（Cover Exact Match，CEM）指标来计算答案奖励，并要求答案不超过10个词，以防止模型通过生成冗长的答案来"欺骗"评估系统。这就像要求学生的答案既准确又简洁。

3. 分组奖励（Group reward）：鼓励模型减少对外部检索的依赖，提高推理效率。研究人员计算了同一问题下正确回答中调用检索器次数的标准差，奖励那些使用最少检索次数的正确回答。这就像鼓励学生尽可能依靠自己的知识解决问题，而不是过度依赖参考书。

同时，研究人员还实现了一个创新的外部知识记忆机制。当模型在训练过程中检索到正确的外部信息时，这些信息会被转化为内部知识的格式，并被用来进一步训练模型。这就像学生在课外阅读中学到的知识，经过消化后成为了自己的知识储备。

三、实验结果：更聪明、更高效的AI助手

研究团队在四个多步骤问答基准测试上评估了R1-Searcher++的性能：HotpotQA、2WikiMultiHopQA、Musique和Bamboogle。其中前两个是训练领域内的基准测试，后两个则是训练领域外的基准测试，用于评估模型的泛化能力。

实验结果令人印象深刻。R1-Searcher++在所有测试中都表现出色，特别是在使用LLM-as-Judge（由GPT-4o-mini评估答案正确性）评估指标时，它比基于树搜索的方法（如CR-Planner）高出25.7%，比最好的普通强化学习方法（R1-Searcher）高出4.3%。

更令人惊喜的是，R1-Searcher++在保持强大性能的同时，大幅减少了检索次数。与R1-Searcher相比，平均检索次数减少了30.0%；与Search-R1相比，减少了52.9%。这就像一个学生既能考出好成绩，又能比其他同学更快完成作业，因为他知道什么时候应该查资料，什么时候可以直接回答。

研究团队还进行了在线搜索实验，将R1-Searcher++连接到谷歌搜索API，在Bamboogle和Frames两个数据集上测试其性能。结果表明，R1-Searcher++在这种实际应用场景中也表现出色，既能达到最佳的F1分数和LLM-as-Judge评分，又能显著减少检索调用次数。这证明了该方法在真实世界应用中的适应性和有效性。

四、案例分析：让我们看看模型如何"思考"

通过一个具体例子，我们可以更直观地理解R1-Searcher++是如何工作的。假设有一个问题："谁是美国花旗银行创立年份的总统？"

普通的Qwen-2.5-7B-Instruct模型直接给出了错误答案："John Quincy Adams"，因为它只依赖自己的内部知识，而这些知识可能不准确或不完整。

Search-R1模型则发出了过多的查询，包括一些不必要的查询，这显示它过度依赖外部搜索引擎，没有充分利用其内部知识，导致处理时间较长。

而R1-Searcher++表现出了更智能的行为：它首先将复杂问题分解成子问题，然后动态调整其行为。当遇到不确定的子问题（例如"花旗银行什么时候成立？"）时，它选择执行外部搜索。但当面对更具体的问题（例如"1812年美国总统是谁？"）时，它直接利用内部知识回答，无需调用搜索。这种灵活的机制实现了外部搜索和内部知识之间的平衡。

五、局限性与未来方向

尽管R1-Searcher++取得了显著成果，研究团队也坦诚指出了两个主要局限性：

首先，受计算资源和资金限制，研究团队在训练过程中使用了本地密集检索语料库，而只在评估阶段集成了真实世界的搜索引擎。如果能在训练过程中直接使用真实搜索引擎，可能会通过更真实的监督进一步提高性能。

其次，当前实验仅限于7B参数规模的模型。在未来的研究中，研究团队计划在更大规模的模型上训练和评估该框架，以进一步验证其泛化能力和鲁棒性。

六、结论：走向更智能、持续学习的AI

R1-Searcher++框架代表了大语言模型向更智能、更自主学习方向发展的重要一步。它使模型能够像人类一样，根据需要动态切换内部知识和外部检索，并将新获取的信息转化为自己的知识，实现持续学习和进步。

简单来说，这项研究帮助AI系统变得更像人类学习者：知道什么时候应该依靠自己的知识，什么时候需要查阅外部资源，以及如何记住新学到的知识以备将来使用。这种能力不仅提高了模型的性能和效率，也使AI系统在实际应用中变得更加实用和可靠。

对于我们普通用户来说，这意味着未来的AI助手将能更准确、更高效地回答我们的问题，减少不必要的等待时间，同时随着使用不断"成长"和"学习"，就像一个不断进步的人类助手一样。

感兴趣的读者可以在https://github.com/RUCAIBox/R1-Searcher-plus查看该项目的源代码，深入了解这一创新框架的实现细节。

大语言模型强化学习检索增强生成

分享至

0赞

好文章，需要你的鼓励

推荐文章

人工智能
多模态分析
化学验证

2025-05-21 14:36

LLM情境调节与持续工作流程提示：革新化学分子式的多模态验证技术

这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现，普通提示方法往往不可靠，因为LLM倾向于自动"纠正"错误而非指出它们。然而，通过精心设计的情境调节提示，研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误，还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明，即使不修改模型本身，也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。
人工智能
生物医学图像分析
显微镜图像分割

2025-05-21 14:34

微生物显微图像分割新突破：复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合，解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术，该模型在9个领域内数据集上提升了7.71%的分割准确度，在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像，大大提高了生物医学图像分析的效率和准确性，为科研人员提供了强大的自动化分析工具。
大语言模型
代码优化
强化学习

2025-05-21 14:32

用强化学习让大语言模型为汇编代码提速：斯坦福团队的优化探索

斯坦福大学等机构研究团队利用强化学习训练大语言模型，使其能够优化汇编代码性能。研究构建了8,072个程序的数据集，并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明，训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比，超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会，如用单一指令替代整个循环，为性能敏感应用提供了有价值的优化途径。
人工智能
音频处理
风格迁移

2025-05-21 14:31

播放师傅变声魔术：让你的录音遵循参考风格的推理时间优化新方法

这项研究提出了一种改进的声乐效果风格迁移方法，通过在推理时间优化过程中引入高斯先验知识，解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型，将风格迁移转化为最大后验概率估计问题。实验结果表明，该方法显著优于基准方法，参数均方误差降低了33%，并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。