微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 MASKSEARCH:通过通用预训练框架,让你的AI更会搜索与思考

MASKSEARCH:通过通用预训练框架,让你的AI更会搜索与思考

2025-06-06 09:17
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-06 09:17 科技行者

阿里巴巴集团与同义实验室(Tongyi Lab)的研究团队在2025年5月推出了一项令人瞩目的研究成果:MASKSEARCH预训练框架。这项由吴威琦、关鑫(共同第一作者)、黄申、姜勇、谢鹏军、黄飞、曹久新、赵海和周井然共同完成的研究,于2025年5月27日在arXiv预印本平台上发布(arXiv:2505.20285v2),代码已在GitHub上开源(https://github.com/Alibaba-NLP/MaskSearch)。这篇文章探讨了如何让大型语言模型(LLMs)更智能地使用搜索工具,就像我们人类遇到不懂的问题时会打开搜索引擎一样自然。

想象一下,当你在写一篇关于某个历史人物的报告,但突然忘记了他的出生年份或重要成就。你会怎么做?大多数人会立即打开搜索引擎,查找所需信息,然后继续你的工作。而传统的AI语言模型则像一个闭门造车的学者,只能依靠自己"脑子里"已有的知识回答问题,这就是为什么它们常常会"胡说八道"(在AI领域称为"幻觉")。

MASKSEARCH提出了一个巧妙的想法:通过特殊的预训练方式,让AI学会像人类一样,在需要时主动去搜索信息。这个过程就像教一个小孩子学习解决问题:不是要求他记住所有答案,而是教他如何在需要时找到答案。研究团队设计了一种名为"检索增强掩码预测"(RAMP)的任务,让AI模型学习填补文本中被掩盖的关键信息,但不是靠猜,而是通过主动搜索和推理来找到答案。

这项研究的意义不仅在于让AI变得更"聪明",更在于让它成为一个会思考、会使用工具的"智能助手",能够处理更复杂、更开放的问题,并提供更可靠的答案。无论是帮助医生查询最新医学研究,还是协助学生进行复杂的知识探索,MASKSEARCH都展示了AI如何在人类与知识之间搭建更智能的桥梁。

一、传统检索增强模型的局限性

想象一下你有一位非常博学的朋友,他记忆力惊人,知识面广泛。然而,当你问他一个超出他知识范围的问题时,他会怎么做?一个真正聪明的人会说:"我不确定,让我查一下",然后去找相关资料。而不那么聪明的人可能会硬着头皮猜测,结果往往不准确。

在AI世界中,大型语言模型(LLMs)就像那些博学的朋友,它们在训练过程中吸收了海量知识,但面临同样的局限性:它们不可能知道所有事情,特别是最新发生的事件或非常专业的领域知识。

传统的检索增强语言模型(RALMs)试图解决这个问题,方法是在AI系统中添加一个专门的"检索模块",就像给AI配备了一个搜索引擎助手。这确实提高了模型回答问题的准确性,但存在一个关键问题:检索(搜索)和生成(回答)是分开的,AI不能像人类那样主动决定何时需要搜索、搜索什么、以及如何利用搜索结果进一步推理。

阿里巴巴的研究团队指出,这种分离限制了模型的适应性,使其无法在多步骤任务中主动获取所需信息。比如,回答"哪位导演执导了《理性与感性》,他在哪所大学完成本科学业?"这样的问题,需要先查找导演是谁,再查找这位导演的教育背景,这就是一个多步骤的搜索推理过程。

近年来,Agent(代理)技术的发展让大型语言模型能够自主使用工具进行检索、规划和推理。虽然基于提示的工作流(prompt-based workflows)已被广泛使用,但它们效率低下且缺乏灵活性。而训练基于LLM的搜索代理提供了更有前途的解决方案,但当前方法主要依赖特定任务的数据,这限制了它们在更广泛任务范围内的泛化能力。

二、MASKSEARCH:一种全新的预训练框架

研究团队受到了一个简单而有力的想法启发:通过预训练,让语言模型学会"什么时候该搜索"以及"如何搜索和利用信息"。就像我们教孩子学习时,不仅教他们知识,还教他们如何查找和利用资源。

MASKSEARCH框架的核心是一个名为"检索增强掩码预测"(RAMP)的预训练任务。这听起来很复杂,但其实非常直观。想象一本书中有些关键词被涂黑了,你需要通过查阅其他资料来填补这些空缺。这就是RAMP任务的本质:模型需要填补文本中被掩盖的关键信息,但不是靠猜,而是通过主动搜索外部知识来找到答案。

具体来说,研究团队从维基百科文章中提取段落,然后识别并掩盖其中的"显著片段"(如人名、地点、日期、数字等),创建了大量训练样本。然后,模型被训练来填补这些被掩盖的信息,方法是通过搜索工具查找相关信息,并利用这些信息进行推理和回答。

这个过程培养了模型的多种能力: 1. 任务分解能力:理解问题并将其分解为可管理的子任务 2. 搜索工具使用能力:知道何时需要搜索,以及如何构建有效的搜索查询 3. 基于观察的推理能力:分析搜索结果并从中提取相关信息 4. 综合能力:将多个信息源整合起来回答原始问题

重要的是,这些能力是高度可迁移的,这意味着在RAMP任务上训练过的模型能够更好地处理各种需要外部知识的下游任务,如开放域问答等。

三、训练策略:让AI学会思考和搜索

MASKSEARCH框架采用了两阶段训练方法:首先是RAMP预训练,然后是下游任务的微调。在RAMP预训练阶段,研究团队采用了两种主要的训练方法:监督微调(SFT)和强化学习(RL)。

### 监督微调:教会AI正确的思考和搜索步骤

想象你在教一个学生解决数学问题。你不仅告诉他答案是什么,还展示解题的每一个步骤。监督微调就是这样工作的:为AI提供详细的"思考链"(Chain-of-Thought,CoT)轨迹,展示如何一步步思考和搜索,直到找到答案。

研究团队创新性地结合了基于代理的方法和基于蒸馏的方法来构建CoT数据:

首先,他们设计了一个多代理系统,包括: - 规划代理(Planner Agent):分析任务并将其分解为子任务,生成初始搜索查询 - 重写代理(Rewriter Agent):优化生成的查询以提高知识检索质量,并调用搜索工具 - 观察代理(Observer Agent):审查搜索结果和已采取的步骤,确定任务是否可以解决或是否需要额外步骤

这些代理协同工作,产生高质量的推理轨迹。每个生成的轨迹都由"LLM作为评判"进行评估,只有正确填补所有掩码的轨迹才会被收录到训练数据集中。

然后,为了快速扩展数据集同时保持高数据质量,研究团队采用了迭代生成策略。他们使用已训练的教师模型代替多代理方法。在第j次迭代中,当前数据集Dj用于微调模型πθj-1,得到更新的策略πθj。这个更新的策略融合了从Dj学到的推理轨迹和搜索策略,然后作为新的教师模型πtj+1用于合成下一轮数据集Dj+1。

这种迭代方法确保模型不断从越来越复杂和多样化的推理轨迹中学习,每一轮迭代都建立在前一轮能力的基础上。通过这种方式,研究团队构建了一个包含1000万个CoT样本(140亿个标记)的大规模数据集,验证了MASKSEARCH作为预训练框架的可扩展性。

### 强化学习:通过实践和反馈不断改进

监督微调有点像按照食谱学习烹饪,而强化学习则更像是实际下厨并根据味道调整做法。在强化学习中,模型通过尝试和错误学习,根据其行为的结果(奖励)来改进其策略。

研究团队采用了动态采样策略优化(DAPO)算法进行强化学习训练,并设计了一个混合奖励系统,包括: - 格式奖励:评估模型响应是否符合指定的答案格式 - 答案奖励:评估模型生成的答案与标准答案的一致性

答案奖励有三种变体: 1. 基于标记级别召回率的奖励:使用标记级别召回率作为奖励指标 2. 带答案长度惩罚的标记级别召回率奖励:引入对答案长度的惩罚以防止奖励黑客行为 3. 基于模型的奖励:使用Qwen2.5-72B-Instruct模型作为评判,评估生成答案与标准答案的一致性

实验表明,基于模型的奖励能够有效解决奖励黑客问题,并在RL训练中表现出显著的稳定性和有效性。

### 课程学习:循序渐进,从简单到复杂

课程学习是一种根据难度对训练样本进行排序,并以递增方式向模型呈现的训练策略。在RAMP任务中,被掩盖的片段数量k被用作难度的主要指标。

与随机抽样不同,课程学习方法首先从包含较少掩码片段的简单任务开始,然后逐步引入具有更多掩码片段的复杂任务。这种方法使模型能够首先学习基本推理技能,然后逐步建立处理更具挑战性场景的能力。

实验证明,这种课程学习方法能够帮助模型更好地适应任务的递增复杂性,从而提高性能和培养更强大的推理能力。

四、实验结果:MASKSEARCH的强大性能

研究团队在多个开放域问答数据集上评估了MASKSEARCH框架的性能,包括HotpotQA、FanoutQA、Musique、2WikiMultiHopQA、Bamboogle和FreshQA。他们使用了两个系列的基础模型:QWEN2.5(1.5B、3B和7B)和LLAMA3(1B、3B和8B)。

实验结果令人印象深刻,主要发现包括:

### RAMP预训练显著提升了搜索代理的性能

将RAMP作为预训练任务显著增强了模型在多个开放域问答数据集上的表现。在领域内数据集(如HotpotQA)上,RAMP提供了稳定的模型召回率改进。在领域外数据集上,改进更为显著。例如,在Bamboogle数据集上,Qwen2.15-1.5B模型与仅进行下游任务训练相比,实现了11.78的大幅提升,而LLAMA模型则获得了令人印象深刻的15.12增益。

此外,较小的模型(如Qwen2.5-1.5B)能够在各种任务上表现出与更大模型相当的性能。这证明RAMP作为一个可扩展的学习信号,可以帮助模型更好地增强其分解问题和与搜索工具交互的能力。

### 强化学习在RAMP上展现出比监督微调更高的性能提升

尽管监督微调(SFT)被证明能有效提高搜索代理性能,但强化学习(RL)展示了在应用于RAMP任务时实现更高上限的潜力。RL与RAMP的结合在下游任务上比单独使用SFT显示出更好的收益,特别是在领域内数据集HotpotQA上,在不同规模的模型上实现了3到5个点的改进。

这一发现突显了探索强化学习等高级训练技术的重要性,以充分利用RAMP在增强RALM性能方面的优势。

### 可扩展性表现优异

为验证MASKSEARCH作为预训练任务的扩展潜力,研究团队进行了实验,使用在第一阶段训练不同步数的模型,并评估它们在随后的下游任务微调后的性能。

实验表明,小型模型(1B、1.5B)在经过预训练阶段后表现出显著的性能提升。这表明RAMP任务有效增强了模型的代理搜索能力。对于更大的模型,扩大数据集规模也是有效的,但性能增益不如小型模型那么显著。

这可能是因为用于训练7B模型的数据是通过自我进化过程生成的,相比于其自身的预测可能缺乏多样性和复杂性。因此,训练数据的质量和多样性是决定模型在SFT期间性能上限的关键因素。

### 课程学习的有效性

研究深入探讨了课程学习在RAMP和下游任务训练中的有效性。从RAMP数据中每个掩码数量抽样10K数据,从HotpotQA抽样6K数据,以保持预训练和下游任务之间的适当比例。此外,从剩余RAMP数据中抽样500个QA对作为验证集,每个掩码数量100个数据点。

研究发现,增加掩码跨度数量会导致验证集上的性能显著改善。尽管初始性能落后,但课程学习方法最终优于混合训练策略(默认方法是将所有数据混合在一起)。在验证集中观察到的优势有潜力在微调后延续到下游任务。

五、MASKSEARCH的创新之处

MASKSEARCH框架引入了几项关键创新,使其在检索增强语言模型和搜索增强推理模型领域中脱颖而出:

### 与传统RALMs的根本区别

相比传统的检索增强语言模型(RALMs),MASKSEARCH有几个关键优势:

首先,在检索标记数量方面,MASKSEARCH操作的检索空间实际上是无限的,这与传统模型受限于预定义检索语料库大小的情况形成鲜明对比。

其次,MASKSEARCH采用单模型架构,而不是传统RALMs的双模型设置。这种简化不仅减少了计算开销,还增强了推理过程的连贯性和一致性。

通过以代理方式与搜索引擎交互,MASKSEARCH支持多步推理,这是处理复杂查询的关键能力,这些复杂查询需要整合来自多个来源的信息,而不能在单个步骤中解决。

### 与Search-R1的比较与区别

与MASKSEARCH最相似的工作是Search-R1,但两者之间存在几个关键区别:

虽然两个模型都在有效无限的检索空间中运行并支持多步推理,但MASKSEARCH采用两阶段端到端训练过程,可以适应SFT和RL。这与Search-R1形成对比,后者使用单阶段强化学习方法训练其检索器。

MASKSEARCH中的两阶段端到端训练允许更一般地优化代理能力,从而更好地与LLM集成并提高性能。

六、掩码策略与奖励设计的深入探讨

### 掩码策略的影响

研究团队深入研究了掩码方法对RAMP任务的影响。除了显著跨度掩码外,许多先前研究还调查了在掩码语言建模(MLM)中选择更具挑战性掩码的效果,包括使用点互信息(PMI)和困惑度(PPL)来评估掩码跨度的难度。

对于自回归模型,研究团队探索了基于PPL的掩码策略。他们通过计算困惑度(即在原始上下文中恢复掩码跨度时的损失)来衡量掩码跨度对模型的难度。具体来说,他们贪婪地选择所有未掩码显著跨度中PPL最高的跨度,直到满足所需的掩码数量。

为了验证这种策略相对于原始随机掩码策略的有效性,研究团队使用基于代理的轨迹构建方法准备了一个40K RAMP数据集用于SFT,并抽样了6K HotPotQA轨迹用于第二阶段训练。

实验结果表明,基于PPL的掩码策略在FanoutQA数据集上带来了性能提升,突显了选择更具挑战性掩码的有效性。然而,HotpotQA和Bamboogle数据集上的实验结果表明,仅仅增加掩码跨度的难度可能会导致性能下降。这表明模型可能没有真正掌握任务,因为难度增加了。另一方面,课程学习(逐步增加训练任务的复杂性)被证明是有益的。在第二阶段训练后,模型在所有三个数据集上都表现出增强的性能,突显了其在增强模型学习进度以处理复杂任务方面的有效性。

### 不同RL奖励的性能

研究团队研究了不同RL奖励对模型性能的影响。结果显示,使用基于标记级别召回率的奖励训练的模型通过向答案添加大量不相关信息来"黑客攻击"指标,显著增加响应长度。这导致与其他RL奖励相比,实际性能显著下降。

虽然基于惩罚的奖励可以显著减少答案长度,但性能仍然受到影响,而且模型仍然可以在有限答案长度的约束内通过使用枚举来进行黑客攻击。

基于模型的奖励在其他两种奖励方法上提供了显著的改进(34.71和19.48),有效解决了奖励黑客问题,并在RL训练中展示出显著的稳定性和有效性。这些优势最终促使研究团队采用基于模型的奖励方法进行训练。

七、案例研究:RAMP如何工作

为了说明模型如何通过检索增强掩码预测任务(RAMP)获得检索和推理能力,研究提供了一个案例研究。在这个例子中,与David Henry Hoelscher相关的联盟、球队和大学信息被掩盖。模型需要自主使用搜索引擎进行推理并填补缺失信息。

开始时,模型制定搜索计划,包括个人职业生涯、球队和大学的详细信息。在第一步中,它检索与他的职业和球队相关的信息。获取初始搜索结果后,模型根据检索到的数据识别与该个人相关的联盟,并启动另一次搜索以确认他所效力的球队。

在第二次搜索后,模型成功推断出他的球队隶属关系,并发现先前的搜索结果包含了他的大学信息。然后它请求另一次搜索来验证这些数据。完成第三次搜索后,搜索代理有效收集了所有必需信息并填补了掩码。

通过RAMP任务,模型不仅学会了执行检索,还掌握了使用检索到的信息进行进一步推理和验证,直到获得完整答案。这个案例清晰地展示了MASKSEARCH如何培养模型的多步骤推理和工具使用能力。

八、总结与未来展望

MASKSEARCH框架代表了一种创新方法,旨在增强LLM的代理搜索能力,特别是通过两阶段训练方法。基于检索增强掩码预测(RAMP)预训练任务,模型可以通过SFT或RL进行训练,在下游任务训练前获取通用能力。

广泛的分析表明,将RAMP作为预训练任务显著增强了模型在各种开放域问答数据集上的性能。它不仅提供了领域内下游任务召回分数的稳定改进,还在领域外基准测试上取得了显著收益。研究还验证了MASKSEARCH的可扩展性,通过构建1000万预训练数据集用于SFT。

此外,尽管RL通常不用于预训练,但实验表明它通过预训练实现了显著的性能增益。它甚至表现出比使用SFT更大的潜力来优化模型性能,在后训练后达到更高的上限。这些发现突显了MASKSEARCH在增强LLM搜索代理的通用代理搜索能力方面的有效性,无论其大小、类型或采用的特定训练方法如何。

然而,研究也存在一些局限性。尽管实证成功和直观动机,但仍有几个方面需要进一步调查。首先,研究团队仅使用搜索工具进行知识检索,以坚持RALM的概念。然而,代理能够利用各种工具,研究团队相信RAMP任务可以推广到包含多种工具的使用。

未来的工作可以探索工具集的多样性,潜在地将应用范围扩展到开放域QA之外的其他场景。此外,虽然方法已经证明了有希望的结果,但需要更深入的理论分析来充分理解导致其有效性的因素。

总的来说,MASKSEARCH提供了一种可扩展、可转移的框架,增强了LLM基于搜索代理的能力,为多跳推理和检索增强任务领域的进展铺平了道路。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-