微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 NExT-Search:重建生成式AI搜索的用户反馈生态系统,打破大语言模型搜索的反馈断层

NExT-Search:重建生成式AI搜索的用户反馈生态系统,打破大语言模型搜索的反馈断层

2025-05-26 07:56
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-26 07:56 科技行者

生成式AI搜索——我们未来的搜索引擎新形态?这是一个由中国人民大学高瓴人工智能学院的戴孙浩,中国科学技术大学的王文杰,中国科学院计算技术研究所人工智能安全重点实验室的庞亮,中国人民大学高瓴人工智能学院的徐俊和文继荣,以及新加坡国立大学的吴思强和蔡德胜共同撰写的研究成果。该论文发表于2025年7月13-18日在意大利帕多瓦举行的第48届ACM SIGIR信息检索研究与发展国际会议上(DOI: https://doi.org/10.1145/3726302.3730353)。

想象一下,你正在计划一次旅行。在传统的网络搜索中,你需要输入关键词,查看多个网页,自己提取信息并整合成一个旅行计划。而现在,基于大语言模型(LLM)的生成式AI搜索则像是一位个人助理,你只需告诉它"帮我规划参加SIGIR 2025的行程",它就能自动拆解任务、检索相关信息,并生成一份完整的行程建议。这就是生成式AI搜索的魔力——它简化了你的搜索体验,但同时也带来了一个重要的问题。

传统搜索引擎能够不断进步的秘密在于什么?答案是丰富的用户反馈。当你点击某个搜索结果,在页面停留较长时间,或者迅速返回搜索页面,这些行为都被记录并用于改进搜索排名算法。而生成式AI搜索则面临一个严峻挑战:整个搜索流程从查询分解到最终回答生成变得对用户不可见,用户只能对最终生成的答案提供简单的喜欢/不喜欢反馈,而无法指出哪个环节出了问题。

这就像是给你端上一盘味道不佳的菜肴,但你无法告诉厨师是食材选择不当、烹饪时间过长还是调味料使用不当——你只能说"这道菜不好吃"。这种反馈的断层使得生成式AI搜索难以像传统搜索引擎那样通过用户反馈不断改进,这可能也是目前微软Bing Copilot和Perplexity AI等生成式搜索引擎尽管引人注目但市场份额仍然有限的原因之一。

针对这一挑战,研究团队提出了一个名为"NExT-Search"的新范式,旨在重建生成式AI搜索的用户反馈生态系统。这个范式有两种互补的交互模式:一种是"用户调试模式",允许用户在搜索过程的关键阶段进行干预,如调整查询分解、评价检索文档以及编辑初始生成的回答;另一种是"影子用户模式",它使用个性化用户代理来模拟用户偏好,为那些不愿过多参与调试的用户提供AI辅助反馈。

就像汽车既有手动挡供专业驾驶员使用,又有自动挡方便普通用户一样,NExT-Search提供了两种方式来收集用户反馈。更重要的是,这些反馈信号不仅用于实时调整当前搜索结果(称为"在线适应"),还会被聚合起来周期性地改进整个搜索系统(称为"离线更新")。

让我们一起深入了解这个创新的搜索范式,看看它如何解决生成式AI搜索的用户反馈断层问题。

一、传统搜索与生成式AI搜索:从反馈角度的比较

要理解NExT-Search的创新,我们首先需要比较传统网络搜索和生成式AI搜索的工作流程。想象一下,传统搜索就像去图书馆查资料——你提供关键词,图书管理员(搜索引擎)给你推荐几本书(搜索结果页),然后你自己翻阅这些书并整合信息。而生成式AI搜索则像是请了一位私人助理,你告诉Ta你的需求,Ta会代替你查阅资料并直接给你一份摘要报告。

传统网络搜索的工作流程非常直接。当你输入查询后,搜索引擎会检索相关文档并对它们进行排序,然后将结果以搜索引擎结果页(SERP)的形式呈现给你。这个过程的美妙之处在于它能收集丰富的用户反馈:你点击了哪个结果?在页面停留了多长时间?是否很快就返回搜索页?这些细粒度的行为信号直接反映了每个文档的相关性,并被用来不断改进排序模型。正如研究者所说,这形成了一个"数据飞轮"效应——用户越多,反馈越丰富;模型越好,用户体验越佳;用户体验越佳,吸引的用户就越多。

相比之下,生成式AI搜索的工作流程要复杂得多。以查询"规划参加SIGIR 2025的行程"为例,系统首先需要将这个复杂查询分解为多个子查询(如"SIGIR 2025在哪里举办?"、"从我所在城市到会议地点有哪些航班选择?"、"有哪些推荐酒店?")。然后,系统针对每个子查询检索相关信息,最后使用大语言模型将这些信息综合成一个连贯的回答。

问题就出在这里:用户只能对最终生成的答案提供粗粒度的反馈(如喜欢/不喜欢),而无法指出具体是哪个环节出了问题。就像收到一份不满意的旅行计划,但你无法具体指出是目的地信息错误、交通建议不当还是住宿推荐不合理。这种反馈的断层使得系统难以针对性地改进各个组件,从而阻碍了生成式AI搜索的持续优化。

研究团队发现,这可能是当前生成式AI搜索(如微软Bing Copilot和Perplexity AI)尽管技术先进但市场份额仍然有限的重要原因之一。要实现规模化、迭代式的优化,生成式AI搜索需要重建那个在传统搜索中行之有效的反馈生态系统。

二、NExT-Search:一个全新的生成式AI搜索范式

为了解决生成式AI搜索的反馈断层问题,研究团队提出了NExT-Search这一创新范式。想象一下,这就像是给一辆自动驾驶汽车增加了手动操控的选项,既保留了自动化的便利,又增加了人工干预的可能。

NExT-Search的核心理念是重新引入细粒度、过程级别的反馈机制,使用户能够干预搜索流程的各个阶段。这种范式整合了两种互补的交互模式:为积极参与的用户提供的"用户调试模式"和为偏好最小化交互的用户提供的"影子用户模式"。

### 用户调试模式:让用户重新掌控搜索流程

用户调试模式就像是为用户提供了一个搜索引擎的"透明窗口",允许他们查看并修改搜索过程中的各个环节。以"规划参加SIGIR 2025的行程"这个查询为例,用户可以在三个关键阶段进行干预:

第一阶段是查询分解调试。当系统将复杂查询分解为子查询时,可能会出现遗漏关键子任务(如忽略了"注册费用和流程")、包含不相关查询(如添加了"当地观光推荐"但用户主要关心的是参会)或子任务排序不当(如在确认会议日程前就查询酒店预订)等问题。在用户调试模式下,用户可以添加/删除子查询、调整子查询顺序以及细化具体约束条件。

例如,系统初始分解可能是: - 查询最佳从[用户所在城市]到[会议地点]的航班选项 - SIGIR 2025将在哪里何时举行 - 会议场地附近有哪些推荐酒店 - 会议场地附近有哪些观光景点

而用户可能会删除关于观光景点的查询(因为参会是主要目的),添加关于"SIGIR 2025的注册流程和费用是什么"的查询(作为旅行规划的前提),并调整查询顺序,确保只有在确认会议日程后才开始预订交通。

第二阶段是检索与排序调试。系统检索文档后,可能出现检索到不相关文档、遗漏高质量或权威来源、或排序不当等问题。用户可以标注文档相关性(相关、部分相关或不相关)、手动调整文档优先级以及设置时间/域名过滤器(如只包含来自"sigir.org"的结果)。

例如,对于子查询"SIGIR 2025将在何时何地举行",系统可能检索到: - 一篇简要提及SIGIR的2025年AI会议新闻文章(部分相关) - 来自ACM SIGIR网站的SIGIR 2025公告(高度相关) - 提及过去会议地点的2023年SIGIR会议记录(不相关)

用户可能会排除过时的来源,提高官方SIGIR来源的优先级,并应用域名过滤器,限制结果来自"sigir.org"以聚焦于权威来源。

第三阶段是答案生成调试。系统生成最终回答后,可能出现事实不准确、信息不完整或过度、风格或语调不当等问题。用户可以指出事实错误并要求额外支持证据、编辑特定部分内容以提高清晰度和准确性、调整风格或长度。

例如,系统可能生成: "SIGIR 2025将在意大利帕多瓦大学举行,时间为7月15-19日。推荐的会议酒店包括NH Hotel Padova和Best Western Hotel Biri,价格从每晚120欧元起。"

用户可能指出会议日期和场地的事实错误(与官方SIGIR网站不符),要求列出更多经济型酒店选择,并调整风格,将酒店详情以简明的列表形式呈现,便于比较。

系统根据这些反馈调整后,可能生成更准确的回答: "根据官方网站,SIGIR 2025将在意大利帕多瓦的Padova Congress Center举行,时间为7月13-17日。推荐住宿包括: - NH Hotel Padova(每晚120欧元,步行10分钟) - Best Western Hotel Biri(每晚165欧元,步行20分钟) - B&B Hotel Padova(每晚90欧元,步行10分钟) 更多住宿选择,请参考SIGIR 2025官方住宿页面:https://sigir2025.dei.unipd.it/recommended-hotels.html"

通过记录用户的每一次调试行为(如经常添加的子任务、反复排除的不相关文档、常见的事实修正),系统可以收集宝贵的数据来改进整个搜索流程。

### 影子用户模式:降低用户参与成本的AI辅助反馈

不是所有用户都愿意或有时间进行详细的调试。想象一下,如果每次使用导航软件都需要手动检查和调整路线,那将是多么麻烦。因此,NExT-Search引入了影子用户模式,使用个性化用户代理来模拟用户行为并提供AI辅助反馈。

这个模式包含两个关键组件:

首先是用户偏好学习。系统构建并持续更新动态用户档案,捕捉个人偏好和行为模式。通过分析人口统计属性、搜索行为、点击互动和浏览历史,系统建模用户特定的倾向,以更好地匹配其期望。例如,如果用户在预订住宿时一贯优先考虑便利性而非成本,系统会识别并编码这一偏好。

其次是AI辅助反馈生成。有了用户档案后,个性化用户代理就能协助那些偏好最小化交互但仍想改进搜索结果的用户。当用户对生成的答案不满意并想调试流程时,代理会根据其偏好提供针对性的修正建议,只需确认而无需手动干预。

例如,在查询分解阶段,个性化用户代理会分析初始子查询,识别需要调整的地方,并提供修改建议供用户确认。系统会使用类似这样的提示:

"作为一个模拟想要改进查询分解过程的用户,你将根据提供的用户档案审查初始子查询并识别必要的调整。你可以执行以下操作:{描述此阶段的操作}"

这种方式大大降低了用户参与的认知负担,同时保持了有价值的流程级反馈。随着代理不断学习和改进模拟用户偏好的能力,它可以提供越来越高质量的反馈,减少对手动干预的需求。

### 双模式协同:构建连续的反馈流

用户调试模式和影子用户模式共同目标是维持用户驱动信号的持续流动,以支持当前会话的实时改进和长期模型的定期优化。

这种协同确保每次搜索会话——无论是主动调试还是被动模拟——都能为改进生成式AI搜索系统提供宝贵的反馈。用户调试模式在用户直接干预流程时提供高保真度的"金标"信号,而影子用户模式则在最小化参与的情况下提供连续的AI辅助反馈。

随着时间推移,用户可以逐渐将更多调试流程委托给代理,信任它代表自己进行改进。这种协同确保即使在用户参与度较低的情况下,系统也能持续改进。

三、激励用户参与:反馈商店机制

众所周知,增加用户负担通常会降低参与度。虽然NExT-Search通过影子用户模式减轻了部分负担,但鼓励用户积极参与调试流程仍然至关重要。为此,研究团队提出了一个名为"反馈商店"的机制来激励用户参与。

想象一下,这就像是一个知识市场,用户可以将优化过的调试流程打包成可重用模板,并提供给面临类似搜索挑战的其他用户。这些模板可以上架销售,贡献者在其他人采用其解决方案时获得直接经济补偿,或者基于使用指标(如浏览量、下载量或成功查询解决率)产生被动收入。

这种反馈商店创建了一个封闭环知识变现循环,使经验丰富的用户能够利用他们的专业知识,同时让经验较少的用户无需手动调整就能受益于高质量、预先优化的搜索工作流程。通过弥合专家贡献者和普通用户之间的差距,反馈商店培育了一个自我维持的搜索改进和持续优化生态系统。

这就像是导航软件中的社区贡献功能——专业用户可以创建并分享最优路线,普通用户则能直接使用这些经过验证的导航方案,同时贡献者可以从其创造的价值中获益。这不仅提高了搜索效率和准确性,还为积极参与的用户提供了切实激励,最终创造一个平台与贡献者之间互惠互利的动态关系。

四、利用反馈:从在线到离线的改进机制

有了细粒度的用户反馈,接下来的问题是如何有效利用这些宝贵信号来改进搜索系统。NExT-Search提出了两种互补的策略:在线适应和离线更新。

### 在线适应:实时改进当前会话

在线适应专注于根据用户反馈动态改进当前会话的响应质量。无论是通过用户调试模式中的显式修正还是影子用户模式中的推断AI辅助反馈,系统都会立即应用调整以更好地匹配用户意图。

这就像是使用实时导航软件——当你选择一条不同的路线时,系统会立即重新计算剩余路径,而非坚持原来的路线。在NExT-Search中,一旦用户修改搜索管道中的任何阶段,所有后续阶段都会相应地重新执行,类似于调试程序时每个调整都会向下传播以确保一致性。

例如,当用户修改子查询(如添加遗漏的查询)时,系统会立即重新处理更新后的公式,确保所有下游阶段反映这些变化。当用户注释检索文档的相关性或应用过滤条件时,系统会动态重新排序结果,在答案合成前提高知识池的质量。最后,如果用户纠正事实错误或请求生成回答中的额外细节,系统会选择性地重新生成受影响的部分,同时保留已验证的内容,减少不必要的重新计算并提高效率。

通过这些实时适应,NExT-Search使生成式AI搜索能够不断调整以匹配不断变化的用户意图。

### 离线更新:长期系统改进

在线适应虽然有价值,但要实现搜索系统的长期进步,需要更系统化的方法。为此,离线更新聚合多会话交互日志,驱动长期系统改进。用户反馈——无论是显式的还是模拟的——都作为结构化监督信号,用于持续改进生成式AI搜索管道的关键组件。

在工业搜索系统中,一种广泛采用的策略是每日增量更新。用户交互和反馈日志会定期处理,生成正面和负面训练样本。这些样本然后用于在前一天模型参数的基础上进行增量训练。一旦训练完成,更新后的模型就会部署到生产环境中。

对于管道的三个核心阶段,离线更新可以这样构建:

首先是查询分解更新。用户修正的子查询为改进查询分解提供直接监督信号。系统收集原始子查询(修正前)和修改后子查询(用户修改后)的对,将后者作为正例,前者作为反例。这些结构化样本可用于通过指令微调或直接偏好优化等技术改进大语言模型的分解能力。

其次是检索与排序更新。用户注释的相关性标签、源偏好和重新排序操作等反馈信号是改进检索和排序模型的重要依据。正例包括用户经常交互的文档(如标记为相关、点击或在响应中引用的文档),而负例包括用户降权或明确过滤掉的文档。这些信号用于微调检索模型和排序模型,以更好地反映用户偏好。

最后是答案生成更新。对生成回答的修正,如事实修正或内容扩展,被记录为改进大语言模型答案合成能力的监督学习信号。正例包括用户接受或最小修改的部分,而负例则是被修正或标记为幻觉的部分。这些信号可用于通过人类反馈强化学习(RLHF)等方法微调LLM,以提高事实准确性并使回答更好地符合用户期望。

通过持续利用这些结构化反馈信号,离线更新使生成式AI搜索能够从长期角度迭代改进搜索流程。

五、未来研究方向:从愿景到实现

NExT-Search虽然提供了一个重新设计生成式AI搜索反馈机制的宏观框架,但将这一愿景转化为实际系统还面临诸多挑战。研究团队指出了三个关键的研究方向:

### 个性化用户模拟器的构建

要充分发挥影子用户模式的潜力,核心挑战在于构建能够可靠模拟用户行为并从有限的交互数据中产生高质量、细粒度反馈的个性化用户代理。未来工作可能会探索将大型推理模型与行为数据相结合的先进用户建模技术,以更准确地推断偏好。

有前途的方向包括将检索增强生成(RAG)与个性化就地学习相结合,构建动态记忆模块以在会话之间保留用户特定历史,以及利用条件生成技术使反馈建议与个人目标保持一致。

此外,构建这类模拟器通常需要访问用户档案、参与日志或上下文属性等敏感信号,这可能引发隐私问题。因此,平衡个性化与隐私是另一个基本挑战。联邦学习和设备上适应等技术可能为隐私保护的用户模拟提供有前途的途径。

### 利用人类和AI辅助反馈进行学习

NExT-Search设想了一个重塑的用户反馈生态系统,但如何有效利用收集到的信号来推动系统改进仍是一个开放性挑战。一个有前途的方向是设计利用用户分步反馈轨迹来监督搜索流程各组件的训练程序。集成LLM推理感知训练的最新进展可能有助于构建更丰富的学习策略并提高流程的鲁棒性。

另一个核心挑战在于整合异构反馈源。用户调试模式提供高质量但稀疏的反馈,而影子用户模式提供丰富但可能噪声较大的信号,如何有效结合这些互补信号仍是一个关键研究挑战。探索多任务学习或课程学习等自适应学习技术可能为从不同反馈流中训练提供有前途的途径。

### 以人为中心的交互设计

尽管影子用户模式是用户调试模式的有效补充——使用LLM主动提供反馈建议并减少用户负担——但该范式仍然基本依赖于用户参与。因此,系统必须在透明度、控制和交互负担之间取得谨慎平衡。

这引发了几个重要的设计问题:如何呈现中间步骤(如子查询分解或检索文档)以鼓励可操作的反馈?不同用户和任务下,什么水平的用户干预是适当的?与人机交互和用户行为研究领域的合作可能产生创新的UI设计或交互工作流,这些设计能够征求有针对性的反馈,最小化用户挫折感,并逐步培训新手处理更复杂的任务。

另一个开放性挑战是如何动态管理影子用户模式和用户调试模式之间的转换。开发基于任务复杂性、用户专业知识或预测的效益成本比的自适应模式切换机制,是一个有前途的研究方向。用户建模或强化学习等技术可用于个性化交互策略。

六、结论:重塑搜索未来的新思路

归根结底,NExT-Search提出了一个重新思考生成式AI搜索用户反馈机制的全新视角。通过在搜索流程的各个阶段——从查询分解到最终回答生成——重新引入细粒度的用户控制,NExT-Search试图弥合当前生成式搜索中的反馈断层,恢复传统搜索引擎中那种能持续自我完善的反馈循环。

这种新范式就像是为自动驾驶汽车增加了手动控制选项——既保留了自动化的便利,又为有经验的用户提供了深度参与的可能性。通过用户调试模式和影子用户模式的双轨设计,NExT-Search既满足了愿意深入参与的用户,也照顾了偏好最小化交互的用户,从而为不同类型的搜索场景提供了灵活的解决方案。

更重要的是,NExT-Search不仅关注如何收集反馈,还设计了利用这些反馈的完整框架——从实时会话调整到长期模型优化,再到鼓励用户参与的反馈商店激励机制。这一整体性思路使NExT-Search成为了一个可持续发展的生态系统,而非简单的技术改进。

当然,要将这一愿景转化为现实,仍有许多挑战需要解决——从构建可靠的用户模拟器,到设计能有效学习的算法,再到创建直观的人机交互界面。但正如研究团队所指出的,这些挑战也正是未来最有前途的研究方向。

在生成式AI迅速改变信息获取方式的今天,NExT-Search为我们提供了一个重要启示:技术进步不应以牺牲用户参与为代价。相反,通过精心设计的交互机制,我们可以在保持自动化便利性的同时,重新引入那些曾使传统搜索引擎不断进步的用户反馈。这种人机协作的新范式,或许正是生成式AI搜索走向真正成熟的必经之路。

如果您对这项研究感兴趣,可以通过前文提到的DOI链接访问完整论文,深入了解NExT-Search的技术细节和实现思路。随着生成式AI搜索的不断发展,我们有理由期待这一领域会涌现出更多创新的解决方案,最终为用户提供既智能又可控的信息获取体验。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。

  • 微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。

  • 用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。

  • 播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-