微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 零搜索:无需搜索也能激发大模型的搜索能力

零搜索:无需搜索也能激发大模型的搜索能力

2025-05-09 13:42
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-09 13:42 科技行者

在人工智能领域的最新突破中,阿里巴巴集团旗下的同义实验室(Tongyi Lab)研究团队带来了一项创新研究。2025年5月7日发布在arXiv预印本平台上的论文《ZEROSEARCH: Incentivize the Search Capability of LLMs without Searching》(零搜索:无需搜索也能激发大模型的搜索能力)提出了一种全新的方法,解决了大型语言模型在信息检索过程中面临的两大困境。该研究由孙浩、乔子乐、郭佳言、范轩博、侯颖燕、蒋勇、谢鹏军、黄飞和张岩共同完成。有兴趣深入了解的读者可通过arXiv:2505.04588v1查阅完整论文。

一、为什么我们需要让AI学会搜索?

想象一下,你有一位非常聪明的朋友,他知识渊博但有个明显的缺点——他所知道的一切都是两年前学到的。当你询问最近发生的事情或最新的研究成果时,他只能提供过时的信息,甚至有时会自信满满地"编造"答案。这位朋友就像现在的大型语言模型(LLM)——虽然在训练过程中学习了海量知识,但一旦训练结束,它们的知识就固定下来了,无法获取新信息。

这就是为什么研究人员一直致力于教会AI如何主动搜索信息。传统方法是让AI直接与谷歌等真实搜索引擎互动,就像人类使用搜索引擎一样。但这种方法面临两个棘手的问题:

首先,从搜索引擎返回的文档质量难以控制。有时搜索结果可能包含误导性信息,有时则可能与问题完全无关,这使得AI难以从中学习有效的搜索策略。

其次,训练过程中需要进行大量的搜索请求,可能高达数十万次。如果使用商业搜索API,这会产生巨额费用,严重限制了研究和应用的规模。

同义实验室的研究团队提出了一个巧妙的想法:与其让AI与真实搜索引擎互动,为何不教会它自己"模拟"搜索引擎的行为呢?

二、零搜索:让AI自己当搜索引擎

研究团队的核心洞察是:大型语言模型在预训练过程中已经获取了大量世界知识,理论上能够根据搜索查询生成相关文档。真实搜索引擎与AI模拟搜索之间的主要区别仅在于返回内容的文本风格不同。

想象一下,这就像是训练一个人不仅要会提问,还要会回答问题。在传统方法中,我们让AI向搜索引擎学习如何提问;而在零搜索方法中,我们同时教会AI如何"扮演"搜索引擎来回答问题。

具体来说,研究团队采用了一种轻量级的监督微调方法,将一个相对小型的语言模型(retrieval module,检索模块)训练成可以模拟搜索引擎的行为。这个检索模块能够根据查询生成相关文档,不需要访问真实的搜索引擎。

这种方法像是训练一个演员既能扮演提问者,又能扮演回答者。更妙的是,通过简单地调整提示语中的几个词,这个模型甚至可以控制生成的文档质量——可以生成高质量、有用的文档,也可以生成低质量、嘈杂的文档。

三、循序渐进的训练策略:从简单到复杂

人类学习新技能通常是从简单任务开始,逐渐过渡到更复杂的挑战。研究团队在训练AI的搜索能力时也采用了类似的策略。

他们设计了一种"课程式推演"机制,在训练过程中逐步降低生成文档的质量。想象一下,这就像是先给学生提供完美的参考资料,然后慢慢引入一些包含错误或不相关信息的资料,迫使学生发展出鉴别和处理嘈杂信息的能力。

在训练初期,检索模块会生成高质量、直接相关的文档,使主模型能够轻松学习基本的输出格式和任务要求。随着训练的进行,系统会逐渐增加生成嘈杂文档的概率,这迫使主模型学习更复杂的推理能力,以便在充满噪音的信息环境中找到正确答案。

这个过程由一个概率函数控制,研究人员用一个公式描述了噪音文档生成的概率是如何随着训练步骤的增加而提高的。这就像是游戏难度随着玩家水平提升而逐渐增加,确保AI始终处于"适当的挑战区",不断提升其能力。

四、零搜索的优势:经济且可控

零搜索方法带来了两个显著优势:

首先,它完全消除了API费用。研究团队计算了使用真实搜索引擎与使用他们的方法之间的成本差异。对于约64,000次搜索请求的训练过程,使用谷歌搜索API的成本约为586.7美元,而使用他们的方法(即使是部署14B参数的模型)也只需约70.8美元的GPU成本。

其次,也是更重要的是,这种方法提供了对文档质量的精确控制。在传统方法中,搜索引擎返回的内容质量不可预测,而在零搜索中,研究者可以精确控制文档的质量和难度,创造理想的学习环境。

此外,零搜索还展现出极强的可扩展性。增加GPU数量可以显著提高检索模块的生成吞吐量,从而使大规模训练变得更加高效。实验结果表明,即使是一个仅有3B参数的语言模型作为模拟搜索引擎,也能有效地增强主模型的搜索能力。更令人惊讶的是,7B参数的检索模块达到了与谷歌搜索相当的性能,而14B参数的检索模块甚至超越了谷歌搜索的表现。

五、实验结果:超越真实搜索引擎

研究团队在多种问答数据集上对零搜索方法进行了全面评估,包括单跳问答(如NQ、TriviaQA和PopQA)和多跳问答(如HotpotQA、2WikiMultiHopQA、Musique和Bamboogle)。

测试结果令人印象深刻。使用Qwen-2.5-7B作为基础模型时,零搜索方法在七个数据集上的平均准确率达到了40.54%,而使用真实搜索引擎的方法(Search-R1)只达到了39.24%。这表明,经过精心训练的AI不仅可以模拟搜索引擎,甚至可以超越真实搜索引擎的性能。

更值得注意的是,零搜索方法表现出色的通用性。它可以与不同规模的模型(从3B到7B参数)以及不同类型的模型(基础模型和指令微调模型)配合使用,都能取得出色的结果。此外,它还与多种强化学习算法兼容,如PPO(近端策略优化)、GRPO(群组相对策略优化)和Reinforce++,展示了极高的灵活性。

六、零搜索如何实际工作

为了更直观地理解零搜索是如何工作的,让我们看一个具体例子。

假设有一个问题:"谁是扮演烟熊(Smokey the Bear)配音的演员的配偶?"

在传统方法中,AI会向谷歌发送查询"Smokey the Bear配音演员",然后谷歌返回相关文档。AI阅读这些文档后发现配音演员是Sam Elliott,然后再次向谷歌发送查询"Sam Elliott配偶",最终得知答案是Katharine Ross。

而在零搜索方法中,AI同样会生成查询"Smokey the Bear配音演员",但这个查询被发送到了模拟搜索引擎(即经过专门训练的检索模块)。这个模块会生成类似搜索引擎返回的文档,提供Sam Elliott是配音演员的信息。然后AI继续生成第二个查询"Sam Elliott配偶",检索模块返回关于Katharine Ross的信息,使AI能够找到正确答案。

整个过程对最终用户来说是无缝的,看起来就像AI在与真实搜索引擎交互,但实际上所有交互都发生在AI系统内部,无需外部API调用。

七、研究意义与未来展望

零搜索方法为大型语言模型增强搜索能力开辟了一条新路径。它不仅解决了依赖真实搜索引擎带来的成本和质量控制问题,还展示了AI系统如何利用自身已有的知识来模拟和增强外部工具的能力。

这项研究的一个关键启示是,大型语言模型已经具备了丰富的世界知识,通过适当的训练策略,可以激发它们高效利用这些知识的能力。零搜索方法证明,我们可以在不依赖外部信息源的情况下,显著提升AI的信息检索和推理能力。

当然,这种方法也有一定局限性。虽然它在成本和控制方面具有优势,但部署模拟搜索引擎仍需要GPU服务器,这引入了额外的基础设施成本。不过,与商业API使用相比,这种成本仍然要低得多,而且可以通过在多个强化学习训练任务之间共享模拟服务器来进一步降低成本。

展望未来,零搜索方法可能为更多AI系统提供自主信息检索能力,特别是在资源受限或需要严格控制信息质量的场景中。它也可能激发更多关于如何利用大型语言模型内部知识的研究,进一步推动AI向更智能、更自主的方向发展。

归根结底,零搜索方法展示了一个令人兴奋的可能性:AI系统可以通过内部模拟外部工具的方式,实现更高效、更经济、更可控的智能行为。这不仅对学术研究具有重要意义,对实际应用也有广泛前景。随着这一领域的不断发展,我们可能会看到更多基于类似原理的创新方法,进一步扩展AI系统的能力边界。

对于关注AI发展的普通读者来说,这项研究表明,未来的AI系统可能会更加自给自足,依靠内部机制而非外部服务来获取和处理信息,这将使AI应用变得更加经济、高效,并能在更多场景中得到广泛应用。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • ReplaceMe:通过线性变换给大语言模型"瘦身"的突破性方法
    2025-05-07 10:33

    ReplaceMe:通过线性变换给大语言模型"瘦身"的突破性方法

    现代大语言模型就像一栋拥有数百个房间的豪华大厦,每个房间(或称为"层")都执行特定的功能,共同协作完成复杂的语言理解和生成任务。然而,这些模型的规模已经变得如此庞大,以至于只有拥有高端计算资源的机构才能负担得起它们的运行成本。这就像一辆耗油量极大的豪华跑车,普通人负担不起它的燃料费用。

  • FormalMATH:人工智能形式化数学推理的新标杆
    2025-05-07 10:32

    FormalMATH:人工智能形式化数学推理的新标杆

    想象一下,当你在解答一道复杂的数学题时,你不仅需要给出答案,还需要详细解释每一步推导的理由,不能有任何逻辑跳跃或假设——这就是形式化数学推理的严格要求。

  • Voila:开创真实自主交互与声音角色扮演新时代的声音-语言基础模型
    2025-05-07 10:29

    Voila:开创真实自主交互与声音角色扮演新时代的声音-语言基础模型

    想象一下日常生活中我们使用的语音助手,比如Siri或ChatGPT。它们通常是这样工作的:你问一个问题,它回答,然后安静地等待你的下一个指令。这就像是一个只会被动回应的服务员,永远等待你的呼唤。而Voila团队认为,真正高级的AI助手应该更像一个时刻准备着的好朋友或队友,能够自然地融入你的生活节奏中。

  • RM-R1:让AI评估变得更明智——将奖励模型转变为推理工具
    2025-05-07 10:27

    RM-R1:让AI评估变得更明智——将奖励模型转变为推理工具

    想象一下,你正在参加一场料理比赛,有两位评委。第一位评委只给你一个分数,而第二位评委会详细解释你的菜品在口感、创意和技巧上的表现如何,然后才给出最终评价。显然,第二位评委的反馈对于你改进厨艺更有帮助。伊利诺伊大学研究团队正是秉持这一理念,开发了能像第二位评委那样工作的AI评估系统。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-