微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

ConvSearch-R1：利用强化学习的推理能力提升对话式搜索中的查询重构

对话式搜索强化学习查询重构

ConvSearch-R1：利用强化学习的推理能力提升对话式搜索中的查询重构

作者：科技行者

2025-05-27 14:31

分享至：

这篇研究论文介绍了一种名为ConvSearch-R1的创新方法，它彻底改变了对话式搜索中的查询重构方式。由复旦大学等机构研发的这一技术，通过强化学习与推理能力相结合，完全摆脱了对人工标注或大型语言模型的依赖。研究采用两阶段框架：自驱动策略预热解决冷启动问题，检索引导的强化学习则通过精心设计的奖励机制优化查询重写。实验表明，即使使用较小的3B参数模型，ConvSearch-R1也能在TopiOCQA数据集上实现超过10%的性能提升，展示了显著的技术优势和资源效率。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-27 14:31 • 科技行者

这项由复旦大学、字节跳动公司和新南威尔士大学研究团队合作开发的对话式搜索查询重构新方法"ConvSearch-R1"，于2025年5月发布在arXiv预印本平台(arXiv:2505.15776v1)。该研究由复旦大学的朱昌泰（Changtai Zhu）作为第一作者，与王思寅（Siyin Wang）、冯瑞君（Ruijun Feng）、宋凯（Kai Song）以及通讯作者邱锡鹏（Xipeng Qiu）共同完成。下面，让我们一起深入了解这项创新研究。

一、对话式搜索的核心挑战与解决思路

想象一下，当你与朋友聊天时，你可以简单地问"他是谁？"，而不需要每次都详细说明"他"指的是谁，因为你的朋友能根据上下文理解。但是，传统的搜索引擎却不能理解这种依赖上下文的模糊查询。这就是对话式搜索面临的核心挑战。

对话式搜索系统需要处理那些包含歧义、省略和指代等特点的上下文相关查询。举个例子，假设你先问搜索系统"谁是美国现任总统？"，得到回答后，你接着问"他在纽约有公司吗？"。对人类来说，"他"指的是谁很明显，但对计算机系统来说，这种指代需要特别处理。

研究人员提出了两种主要解决方案：一种是训练专门的多轮检索器，但这需要大量计算资源；另一种更实用的方法是"对话式查询重构"（Conversational Query Reformulation，简称CQR），它将上下文相关的模糊查询转换为独立完整的形式，然后交给现成的检索系统处理。

然而，现有的CQR方法存在两个关键限制：一是高度依赖昂贵的外部监督（如人工标注或大型语言模型生成的重写样本）；二是重写模型与下游检索器之间对齐不足。关键问题在于：如何让查询重构模型在没有明确标注的参考重写的情况下，通过检索反馈有效地与检索器对齐？

二、ConvSearch-R1：一种自驱动的全新框架

ConvSearch-R1提出了一种彻底创新的解决方案：完全消除对外部重写监督的依赖，直接通过检索信号优化重构过程。这就像是让模型自己通过试错来学习，而不是依赖别人的"标准答案"。

想象一个初学烹饪的人：传统方法相当于给他详细的食谱（人工标注）或名厨示范（大语言模型），而ConvSearch-R1则是让他根据食客的反馈（检索结果的质量）不断调整自己的烹饪方法。这种方法不仅节省了获取"标准食谱"的成本，还能更好地适应特定食客的口味（检索器的偏好）。

研究团队设计了一个两阶段框架：

首先是"自驱动策略预热"（Self-Driven Policy Warm-Up，简称SDPWU）。这个阶段解决了"冷启动"问题，就像是厨师在正式烹饪前先熟悉食材和基本技巧。具体来说，模型利用少量示例学习进行推理，并结合检索排名信号进行自蒸馏，生成高质量的重写数据，而无需外部监督。

接下来是"检索引导的强化学习"（Retrieval-Guided Reinforcement Learning）。在这个阶段，模型通过"群组相对策略优化"（Group Relative Policy Optimization，简称GRPO）算法与检索器进一步对齐。团队特别设计了一种"排名激励奖励塑造"机制，解决了传统检索指标（如Recall@K和NDCG@K）中的稀疏性问题，提供更平滑的学习信号而非二元或高度倾斜的结果，使模型能够高效探索广阔的重构空间。

三、技术实现：自驱动的两阶段对齐框架

深入了解ConvSearch-R1的技术实现，我们可以将其想象为训练一个智能助手，这个助手需要通过两个阶段的学习逐渐掌握如何重构查询。

### 自驱动策略预热（第一阶段）

在第一阶段，研究团队首先让模型通过少样本学习生成初步的重写：

``` Dd = {yi = πinit(xi, ρ, instruction) | xi ∈ D} ```

这听起来很复杂，但实际上就像是给模型几个例子，然后让它模仿这些例子的风格重写新的查询。接着，他们筛选出符合格式要求的样本：

``` Df = {y ∈ Dd | g(y) = 1} ```

这相当于检查模型生成的重写是否符合预定的格式规范。最关键的是，研究人员只保留那些重写能让金标准文档排在第一位的样本，创建了自驱动数据（SD-DATA）。每个样本包含会话历史、当前查询和推理-重写对。

最后，他们用这些高质量数据微调初始模型，得到具备基本能力的模型πSFT，它已经学会了如何按照格式要求进行推理和查询重写。整个过程没有使用任何外部监督数据，完全依靠模型自身的能力和检索系统的反馈。

### 检索引导的强化学习（第二阶段）

在第二阶段，研究团队使用强化学习进一步优化模型。他们设计了一个特殊的奖励函数——"排名激励奖励塑造"（RIRS）。

传统检索指标作为奖励往往会导致奖励信号稀疏，使模型难以有效学习。想象你在教一个孩子玩飞镖游戏，如果只有击中靶心才说"做得好"，其他情况都不给反馈，孩子会很难进步。RIRS就像是根据飞镖落点的不同区域给出不同程度的鼓励，让学习过程更加平滑有效。

具体来说，RIRS根据检索排名位置创建更有信息量的奖励信号，而不是依赖二元检索指标。考虑到用户通常更关注靠前的位置，RIRS实现了一个分段奖励函数，为前10位分配更高的奖励，同时为中等位置(11-100)保持比例较小但有意义的奖励。这种方法保留了检索质量的语义阈值，同时确保在策略优化过程中提供密集的反馈信号。

完整的奖励函数考虑了格式正确性，定义为：

``` R(ξ, φ) = R(ξ) · I(φ = 1) + δ · I(φ = 0) ```

这里φ表示格式符合度，δ=-0.1是对格式不符合的惩罚项。

有了精心设计的奖励函数，研究团队采用GRPO算法进行强化学习训练。这种方法不需要显式的奖励模型和价值模型，通过反复试验和学习，模型逐渐掌握如何生成能够获得高质量检索结果的查询重写。

四、实验评估：小模型也能有大智慧

研究团队在两个广泛使用的对话式搜索数据集——TopiOCQA和QReCC上进行了大量实验，使用BM25作为稀疏检索器和ANCE作为密集检索器。这就像是在不同类型的图书馆（数据集）使用不同的图书分类系统（检索器）测试他们的智能助手。

实验结果令人印象深刻：ConvSearch-R1使用3B参数的模型（Llama3.2-3B和Qwen2.5-3B）在没有任何外部监督的情况下，显著超越了现有的最先进方法。特别是在更具挑战性的TopiOCQA数据集上，使用密集检索器时，ConvSearch-R1分别提高了12.0%和12.9%的MRR@3指标。

更令人惊讶的是，与使用7B参数模型（如RETPO和AdaQR）的方法相比，ConvSearch-R1不仅更加高效，还能提供更好的性能。这就像是一个体型较小但训练有素的运动员，能够战胜那些更强壮但技术欠佳的对手。

在泛化能力方面，ConvSearch-R1也表现出色。研究人员在TopiOCQA训练集上训练模型，然后在QReCC测试集上评估，反之亦然。结果显示，ConvSearch-R1的泛化性能明显优于其他方法。这证明了通过强化学习与排名激励奖励，模型能够通过试错与更广泛、更多样的高质量数据进行交互，从而增强其跨不同数据集泛化的能力。

五、洞察与分析：为什么ConvSearch-R1如此有效？

为了进一步理解ConvSearch-R1的成功，研究团队进行了一系列分析实验。

首先，他们分析了不同模型规模的表现。使用从0.5B到7B不同参数规模的Qwen2.5系列模型，ConvSearch-R1在所有模型规模上都始终优于最先进的基线。随着模型规模的增加，ConvSearch-R1与基线之间的性能差距变得越来越明显。有趣的是，即使在使用相对较小的0.5B参数模型进行密集检索时，ConvSearch-R1仍然显著超过了基线。这表明ConvSearch-R1具有很强的跨不同规模模型的泛化能力。

其次，研究人员通过消融研究验证了框架中每个组件的有效性。结果表明，ConvSearch-R1的两个阶段——自驱动策略预热和检索引导的强化学习——在不同检索器和数据集上都发挥着关键作用。两个阶段相互补充，共同提升了整体性能。

最后，案例研究揭示了ConvSearch-R1在训练过程中的进步。在早期训练阶段，模型与检索器之间的对齐有限，可能会在推理过程中忽略某些问题的重构。随着训练的深入，模型逐渐学会考虑用户提出的所有问题，成功解决指代关系，甚至生成伪文档来补充缺失信息。这种综合考虑使模型能够在后期训练阶段为复杂案例检索到最相关的文档。

六、总结与展望

ConvSearch-R1代表了对话式搜索查询重构的重大突破。它完全消除了对外部重写监督的依赖，通过自驱动策略预热和检索引导的强化学习实现了与检索器的有效对齐。

该方法的核心创新在于：首先通过自蒸馏和偏好过滤生成高质量的训练数据，然后使用精心设计的排名激励奖励通过强化学习进一步优化模型。这种方法不仅大大降低了获取重写的成本，还实现了与检索器的更好对齐，最终带来显著的性能提升。

实验结果表明，即使使用较小的3B参数模型，ConvSearch-R1也能在没有任何外部监督的情况下，显著超越使用7B参数模型的现有方法。这对于资源受限的应用场景具有重要意义。

展望未来，ConvSearch-R1的方法可能会应用到更广泛的自然语言处理任务中，特别是那些需要与外部系统（如检索器、数据库等）对齐的任务。这种自驱动的学习范式也可能启发新的研究方向，探索如何在没有明确监督的情况下，通过与环境交互学习复杂任务。

研究团队已将数据集、代码和模型开源，有兴趣的读者可以通过GitHub仓库（https://github.com/BeastyZ/ConvSearch-R1）获取更多详细信息。

对话式搜索强化学习查询重构

分享至