微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 微软推出CoRAG:让AI学会像侦探一样一步步搜索信息

微软推出CoRAG:让AI学会像侦探一样一步步搜索信息

2025-09-17 13:29
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-09-17 13:29 科技行者

这项由微软公司和中国人民大学联合开展的研究于2025年3月发表在计算机科学信息检索领域的顶级期刊arXiv上。论文的第一作者是微软的王亮博士,其他主要作者包括人民大学的陈浩南、微软的杨楠、黄晓龙、窦志成和魏富如等知名学者。有兴趣深入了解技术细节的读者可以通过论文链接https://aka.ms/GeneralAI获取完整研究报告。

在我们日常生活中,当面对复杂问题时,我们往往不会一次性获得所有答案,而是像侦探破案一样逐步收集线索。比如你想了解"电影《黑暗危险》的主演在哪里上的大学",你可能先搜索这部电影的主演是谁,然后再查这位演员的教育背景。然而,目前大多数AI助手在回答问题时,就像只有一次搜索机会的新手侦探,往往因为第一次没找到关键线索就败下阵来。

微软研究团队意识到了这个问题,他们发现传统的检索增强生成系统就像一个只会"一招鲜"的侦探,遇到复杂案件时经常束手无策。这种系统在回答简单问题时表现尚可,但面对需要多步推理的复杂查询时,往往因为初次检索的信息不够准确或完整而导致最终答案错误。研究团队决定彻底改变这种状况,让AI学会像经验丰富的侦探一样,能够根据获得的线索动态调整搜索策略,逐步逼近真相。

这项研究的突破性在于首次系统性地训练AI模型进行多步骤检索和推理。与以往依赖少数示例或商业模型提炼的方法不同,研究团队开发了一套完整的训练框架,让开源AI模型能够学会这种逐步搜索的技能。更令人兴奋的是,他们发现这种方法可以在测试阶段通过增加计算资源来进一步提升性能,就像给侦探更多时间和资源去破案一样,往往能获得更准确的结果。

一、破案需要多条线索:为什么一次搜索远远不够

传统的AI问答系统就像一个急性子的侦探,接到案件后立即冲到现场搜集证据,然后基于第一波线索就匆忙下结论。这种做法在处理简单案件时还算有效,比如"今天天气如何"或"苹果公司的CEO是谁"这类直白问题。但是,当面对需要推理的复杂问题时,这种一步到位的方法就显得力不从心了。

考虑这样一个场景:你想知道某位历史人物的老师的出生地在哪个国家。一个急性子侦探可能会直接搜索这位历史人物,希望一下子找到所有相关信息。但现实往往是,第一次搜索只能找到这个人的基本信息,而关于他老师的详细资料可能藏在更深层的资料中。这时候,有经验的侦探会调整策略,先确定这个人的老师是谁,然后再专门搜索这位老师的相关信息。

研究团队通过大量实验发现,这种单步检索的局限性在多跳推理任务中表现得尤为明显。所谓多跳推理,就像一个需要经过多个中转站才能到达目的地的旅程。你必须先到达第一个站点,再从那里出发到第二个站点,如此反复直到最终目标。如果在任何一个环节出现偏差,整个推理链就会断裂。

更糟糕的是,现有的检索系统为了效率考虑,通常使用相对简单的向量匹配技术。这就好比给侦探配备了一个只能进行模糊搜索的工具,无法精确定位特定类型的线索。当查询变得复杂时,这种工具往往无法理解查询的真正意图,导致检索到大量无关信息,反而干扰了正确答案的生成。

正是基于这些观察,微软研究团队决定开发一种全新的方法,让AI能够像经验丰富的侦探一样,根据案件的复杂程度和当前掌握的线索,灵活调整搜索策略,逐步收集所需信息。

二、训练AI成为推理大师:CoRAG的核心机制

CoRAG系统的核心理念就是让AI学会"分步骤破案"。但是,教会AI这种技能面临一个关键挑战:现有的训练数据通常只包含最终的问题和答案,就像给侦探一个案件的开头和结尾,但中间的推理过程完全是空白的。

为了解决这个问题,研究团队开发了一种叫做"拒绝采样"的巧妙方法。这个过程就像让一个有经验的侦探教练观察新手侦探破案,从中选择最好的推理路径作为教学案例。具体来说,系统会让AI模型针对同一个问题生成多条不同的推理链,每条链包含一系列的子问题和对应答案。然后,系统会评估这些推理链的质量,选择那些最终能得到正确答案的链条作为训练材料。

这个评估过程颇为精妙。系统不是简单地看最终答案是否正确,而是计算给定整个推理链的情况下,正确答案出现的概率有多高。这就像评判一个侦探的破案过程不仅要看结果,更要看整个推理逻辑是否合理、证据链是否完整。那些逻辑清晰、步步为营的推理链会获得更高的评分,成为训练其他AI模型的优质教材。

在训练阶段,CoRAG需要同时掌握三种不同的技能。第一种技能是学会提出合适的子问题。就像侦探需要知道下一步应该询问什么样的证人或搜集什么样的证据。第二种技能是基于检索到的信息回答子问题。这要求AI能够从大量信息中提取关键要点,就像侦探需要从证人的话语中筛选出有用信息。第三种技能是综合所有子问题的答案来回答原始问题。这是整个过程的高潮,就像侦探在法庭上将所有证据串联起来揭示真相。

整个训练过程采用多任务学习的方式,让AI同时练习这三种技能。系统使用标准的下一词预测目标函数,这意味着AI需要学会在每个位置预测最合适的下一个词。通过大量的练习,AI逐渐掌握了何时应该提出新的子问题、如何基于检索信息给出准确答案,以及如何将分散的信息整合成连贯的最终回答。

三、三种破案策略:让AI在不同情况下选择最佳方案

训练完成后的CoRAG系统具备了多种"破案策略",可以根据问题的复杂程度和可用资源灵活选择最合适的方法。这就像给侦探配备了不同等级的调查工具包,可以根据案件重要性选择投入多少资源。

第一种策略叫做贪婪解码,这是最直接的方法。AI会按照训练时学到的模式,一步步生成子问题和答案,直到达到预设的推理链长度或找到满意的答案。这种方法就像一个按部就班的侦探,严格遵循标准程序进行调查。虽然不一定是最优的,但效率高且资源消耗少,适合处理大量相对简单的案件。

第二种策略是多样本最优选择。这种方法会让AI生成多条不同的推理链,然后从中选择最好的一条。具体的选择标准是计算每条推理链中"没有找到相关信息"这个回答出现的概率,概率越低说明这条推理链收集到的有用信息越多。这就像让多个侦探小组并行调查同一个案件,最后选择收集到最有价值线索的那组结果。虽然消耗的资源更多,但通常能获得更准确的答案。

第三种策略是树形搜索,这是最复杂但也最强大的方法。AI会在每个推理步骤都生成多个可能的子问题,然后对每个分支都进行多次试探性的推理,评估不同路径的潜在价值。最终选择那些显示出最大希望的路径继续深入调查。这就像组织一次大规模的协同破案行动,多个侦探团队从不同角度同时展开调查,随时交流信息并调整策略。虽然成本最高,但在处理最复杂的案件时往往能取得突破性进展。

有趣的是,研究团队发现这三种策略的性能和资源消耗之间存在着相当规律的关系。随着投入资源的增加,AI的表现基本遵循对数线性的改善模式。简单来说,前期投入的每一份额外资源都能带来明显的性能提升,但随着资源投入的增加,边际收益会逐渐递减。这为实际应用提供了重要参考,用户可以根据对准确性的要求和可承受的成本来选择合适的策略。

四、实战检验:AI侦探的破案成绩单

为了验证CoRAG的实际效果,研究团队进行了广泛的实验测试,就像让新训练的侦探参加各种类型的破案考试。他们选择了两大类测试场景:一类是专门考验多步推理能力的复杂问答任务,另一类是涵盖多种知识密集型任务的综合基准测试。

在多步推理测试中,CoRAG的表现令人印象深刻。以MuSiQue数据集为例,这是一个特别设计来考验AI多跳推理能力的测试集,其中的问题往往需要AI从多个不同来源收集信息才能回答。传统的单步检索系统在这个测试中的准确率通常只有百分之十几到二十几,而CoRAG系统在使用最长推理链时能够达到30%以上的准确率,相比传统方法提升了10个百分点以上。

更让人惊喜的是,CoRAG展现出了明显的测试时计算扩展特性。当系统被允许使用更长的推理链或尝试更多候选答案时,性能会持续改善。在2WikiMultihopQA测试中,使用简单贪婪策略的准确率约为56%,但当使用最复杂的树形搜索策略并允许更长推理链时,准确率能提升到72%以上。这种现象就像给侦探更多时间和资源进行调查,通常能够发现更多线索并得出更准确的结论。

在更广泛的KILT基准测试中,CoRAG在几乎所有任务上都创造了新的最佳成绩。KILT测试涵盖了实体链接、槽位填充、开放域问答和事实验证等多种不同类型的知识密集型任务。CoRAG不仅在需要复杂推理的任务上表现出色,在相对简单的任务上也保持了优异性能,证明了其通用性和鲁棒性。

研究团队还发现了一个有趣现象:CoRAG的效果与任务的复杂程度密切相关。对于那些本身就需要多步推理的复杂问题,CoRAG的优势最为明显。但对于一些相对简单、通过单次检索就能解决的问题,额外的推理步骤带来的提升就比较有限。这个发现很有实用价值,意味着在实际应用中可以根据问题类型动态选择是否启用多步推理功能,既保证效果又控制成本。

五、深入案例分析:看AI侦探如何破解疑难杂案

为了更直观地展示CoRAG的工作原理,让我们跟随AI侦探的脚步,看看它是如何破解一个复杂案件的。研究团队提供了一个很好的例子:要找出电影《黑暗危险》主演的大学。这个问题就像一个需要两步破解的谜题。

传统的单步检索系统可能会直接搜索"黑暗危险主演大学",但这种搜索往往无法直接找到答案,因为相关信息可能分散在不同的文档中。而CoRAG的处理方式更像一个有条理的侦探:首先提出子问题"黑暗危险的主演是谁",通过检索找到答案是"爱德华·G·罗宾逊"。然后基于这个线索,进一步询问"爱德华·G·罗宾逊在哪里上的大学",最终找到正确答案"纽约城市学院"。

更有趣的是CoRAG展现出的自我纠错能力。在某些情况下,第一次检索可能没有找到有用信息,系统会显示"没有找到相关信息"。这时,CoRAG不会放弃,而是会重新组织问题。比如将"爱德华·G·罗宾逊去了哪所大学"改写为"爱德华·G·罗宾逊上的是什么大学",通过不同的表达方式来触发更好的检索结果。

研究团队展示的另一个案例更能体现CoRAG的推理深度。面对"托马斯·帕克·桑伯恩是某位诗人唯一小说中主角的原型,这位诗人最初来自哪个国家"这样的复杂问题时,传统系统往往会迷失在多层嵌套的信息需求中。而CoRAG会有条不紊地分解问题:先找出相关的诗人是谁,然后确认这位诗人写的唯一小说,接着验证托马斯·帕克·桑伯恩确实是小说主角的原型,最后查找诗人的原籍国家。

值得注意的是,CoRAG在处理这类复杂问题时并不总是一帆风顺。有时它也会在推理过程中产生一些错误的中间结论,但系统具备一定的自我验证和纠错能力。比如在上述案例中,系统最初可能误认为相关诗人是艾米莉·勃朗特,但通过后续的交叉验证,会发现这个答案不符合"唯一小说"的条件,从而重新调整搜索方向,最终找到正确答案乔治·桑塔亚纳。

六、系统的智能适应性:不同任务类型的差异化表现

研究团队在分析实验结果时发现了一个重要现象:CoRAG在不同类型任务上的表现差异很大,这个发现对理解系统的工作机制和指导实际应用都有重要意义。

对于那些天然需要多步推理的复杂任务,CoRAG的优势最为突出。比如在处理需要跨越多个实体关系的问题时,传统单步检索往往力不从心,而CoRAG可以逐步建立关系链条,最终抵达答案。这就像解决一个复杂的拼图游戏,需要先找到边框,再填充内部细节,单凭运气很难一次成功。

然而,对于那些相对简单的事实性问题,比如"纽约的人口是多少"或"谁发明了电话",CoRAG的多步推理机制就显得有些"杀鸡用牛刀"了。在这些情况下,额外的推理步骤不仅没有带来明显的性能提升,反而增加了不必要的计算成本。这个现象提示我们,在实际应用中应该根据问题的复杂程度智能选择是否启用多步推理功能。

研究团队还测试了CoRAG与不同质量检索器的兼容性。他们发现,即使使用相对简单的BM25检索器或较小规模的嵌入模型,CoRAG依然能够通过多步推理获得性能提升,只是提升幅度会相应减少。这种鲁棒性很有实用价值,意味着CoRAG可以与各种现有的检索系统配合使用,而不需要依赖特定的高端检索器。

另一个有趣的发现是CoRAG的"弱到强泛化"能力。研究团队发现,即使使用相对较小的语言模型来生成训练用的推理链,然后用这些数据训练更大的模型,也能取得不错的效果。这就像让经验较少的侦探先摸索破案方法,然后将这些经验传授给更有能力的侦探,后者往往能够将这些经验运用得更好。这个特性大大降低了训练成本,使得CoRAG的实际部署变得更加可行。

七、学会适时停手:AI侦探的收工时机

在实际应用中,一个重要问题是如何让AI知道什么时候应该停止搜索。就像侦探需要判断何时收集到了足够的证据可以结案,AI也需要学会识别何时已经获得了回答问题所需的充分信息。

为了解决这个问题,研究团队开发了一个"学会停止"的机制。系统会在每个推理步骤后评估当前收集到的信息是否足够回答原始问题。如果判断信息已经充分,就会停止进一步的搜索;如果认为还需要更多线索,就会继续生成新的子问题。

这个判断过程通过一个简单但有效的方法实现:系统会询问自己"基于目前收集到的信息,是否有足够信心回答原始问题",然后只能回答"是"或"否"。通过调整系统对"是"这个回答的偏好程度,可以控制AI的"急躁程度"。如果设置得比较保守,AI会更倾向于收集更多信息才停手;如果设置得比较激进,AI会更早地停止搜索。

实验结果显示,这种早停机制在某些情况下确实能够节省计算资源,但往往以牺牲一定准确性为代价。在MuSiQue测试中,通过调整停止策略,可以在减少约30%计算量的情况下,准确率仅下降2-3个百分点。这为实际应用提供了灵活的成本控制选项。

八、持续进化的训练方式:AI侦探的技能升级

CoRAG系统的一个独特优势是支持迭代式的自我改进。由于系统在训练和推理时使用相同的提示模板,一个训练好的CoRAG模型可以用来生成新的推理链数据,然后用这些数据进一步训练下一代模型,形成正向循环。

这个过程就像让有经验的侦探带新手,新手在学会基本技能后,又可以总结自己的经验去指导更新的学员。通过这种迭代训练,系统的推理能力可以不断精进。不过,实验结果显示这种迭代改进的效果比较有限,在某些任务上甚至可能出现轻微的性能下降。研究团队认为这可能是因为现代指令调优的语言模型本身已经具备了相当强的推理能力,进一步提升的空间有限。

研究团队还探索了在推理链生成阶段使用不同规模模型的可能性。他们发现,使用较小的模型(如30亿参数)生成训练数据,然后用这些数据训练较大的模型(如80亿参数),也能取得不错的效果。这种"弱到强"的训练范式大大降低了数据生成的计算成本,使得CoRAG的实际应用变得更加经济可行。

九、面向未来的思考:AI推理系统的发展前景

CoRAG的成功为未来AI系统的发展指明了几个重要方向。首先是测试时计算扩展的理念。与传统的通过增大模型规模来提升性能的做法不同,CoRAG证明了在保持模型规模不变的情况下,通过增加推理时的计算投入也能显著改善性能。这种方法更加灵活,用户可以根据具体需求和资源限制动态调整系统的"聪明程度"。

其次是多步推理的普适性。虽然CoRAG主要在知识密集型任务上进行了验证,但其核心思想——将复杂问题分解为简单子问题逐步解决——具有更广泛的适用性。未来可能会看到类似技术在数学推理、科学发现、创意写作等更多领域的应用。

第三是自适应计算的重要性。CoRAG在不同复杂程度任务上的差异化表现提示我们,未来的AI系统应该具备根据任务特点自动调整计算策略的能力。简单问题用简单方法快速解决,复杂问题投入更多资源深入思考,这样既能保证效果又能控制成本。

当然,CoRAG也还存在一些局限性。比如在处理需要常识推理或创造性思维的问题时,纯粹基于检索的方法可能still有不足。另外,如何更好地评估推理链的质量、如何处理检索到的信息中的矛盾、如何避免推理过程中的错误积累等问题,都还有待进一步研究。

说到底,CoRAG代表了AI系统向着更加智能化、人性化方向发展的重要一步。它不再满足于简单的模式匹配和信息检索,而是学会了像人类一样进行结构化的思考和推理。虽然距离真正的人工智能还有很长的路要走,但CoRAG这样的研究让我们看到了希望:AI正在学会思考,学会像侦探一样抽丝剥茧地解决复杂问题。对于普通用户而言,这意味着我们将拥有更加智能、更加可靠的AI助手,它们不仅能回答简单问题,更能帮助我们处理那些需要深入思考和推理的复杂挑战。未来的AI可能真的会成为我们身边最得力的"智能侦探"。

Q&A

Q1:CoRAG和传统的AI问答系统有什么区别?

A:传统AI问答系统只进行一次信息搜索就给出答案,就像急性子的侦探匆忙下结论。而CoRAG会像经验丰富的侦探一样,先搜索部分信息,然后根据获得的线索提出新问题,再次搜索,如此反复直到收集到足够信息。这种多步骤方法特别适合解决复杂的推理问题。

Q2:CoRAG需要消耗更多计算资源吗?性能提升值得吗?

A:确实需要更多计算资源,但用户可以根据需求灵活选择。系统提供三种策略:贪婪解码成本最低,多样本选择成本中等,树形搜索成本最高但效果最好。在复杂推理任务中,CoRAG的准确率比传统方法提升10个百分点以上,对于重要问题来说这种提升是很值得的。

Q3:普通用户什么时候能用上CoRAG技术?

A:CoRAG的核心技术已经开源,代码可以在GitHub上找到。不过目前还主要是研究阶段的产品,普通用户要真正使用可能还需要等待商业产品的推出。研究团队来自微软这样的大公司,相信技术商业化应用不会太远,未来可能会集成到各种AI助手和搜索产品中。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-