你知道谷歌和微软的智能聊天机器人为何能回答最新的新闻事件吗?秘密在于它们能够"上网搜索"。这项来自加州大学伯克利分校的最新研究,由Mihran Miroyan、Tsung-Han Wu、Logan King、Tianle Li、Jiayi Pan、Xinyan Hu、Wei-Lin Chiang、Anastasios N. Angelopoulos、Trevor Darrell、Narges Norouzi和Joseph E. Gonzalez共同完成,发表于2025年6月5日的arXiv预印本平台上。研究团队开发了一个名为"Search Arena"的开放平台,帮助我们理解这些"会上网的AI"是如何工作的,以及人们如何与它们互动。
想象一下,你有两种类型的智能助手:一种只能讲述它在"出厂前"学到的知识(传统大语言模型,简称LLM),另一种则可以实时上网查找最新信息(搜索增强型LLM)。这就像是两个助手,一个只能引用他记忆中的知识,另一个则可以边聊天边查阅最新资料。显然,当你问"今天的天气如何?"或"最新的iPhone什么时候发布?"时,能够上网查询的助手会提供更准确、更及时的信息。
然而,理解这些"会上网的AI"如何工作,以及人们如何与它们互动,仍然是个难题。现有的评估数据集规模有限,主要关注单轮对话中的事实核查问题,不能全面反映真实世界中的复杂交互。为了解决这个问题,伯克利团队创建了"Search Arena"平台,收集了超过24,000次多轮用户与搜索增强型LLM的交互数据,涵盖70多种语言,包含约12,000次人类偏好投票。
这个庞大的数据集揭示了一些令人惊讶的发现。例如,用户更喜欢引用更多来源的AI回答,即使这些引用与内容并无直接关联,这表明人们对AI可信度的感知和实际可信度之间存在差距。研究还发现,用户对不同引用来源有明显偏好,通常更喜欢社区驱动平台(如Reddit)的内容,而传统百科资源(如维基百科)并不总是受欢迎。
研究团队还进行了"跨场景"测试,将搜索增强型AI放在普通聊天环境中,将普通AI放在需要搜索的环境中。结果表明,搜索能力并不会影响AI在普通聊天中的表现,甚至可能提升效果;而在需要搜索的场景中,仅依靠模型自身知识的AI则表现明显不足。
让我们一起深入了解这项研究,看看它如何帮助我们理解和改进下一代AI助手。
一、研究背景:为什么需要研究"会上网的AI"?
想象你有一位博学多才的朋友,他知识渊博但有个明显缺点——他的所有知识都停留在2022年(或更早)。当你询问2023年发生的事件、最新的科技产品或刚发布的电影时,他无法给你准确回答。这就是传统大语言模型的局限——它们只能基于训练数据回答问题,无法获取实时信息。
为了解决这个问题,研究人员开发了搜索增强型大语言模型(简称搜索增强型LLM)。这些模型就像给了AI一个搜索引擎,使它能够在回答问题时实时查询网络。比如当你问"今天巴黎的天气如何?"或"最新的PlayStation游戏有哪些?"时,它会先上网查找相关信息,然后再回答你的问题。
伯克利研究团队指出,虽然搜索增强型LLM发展迅速,但我们对用户如何与这些系统互动仍知之甚少。现有的评估数据集如SimpleQA(约4,300个问题)和BrowseComp(约1,300个问题)规模有限,且主要关注单轮、英语、事实核查类问题。然而,现实世界中的用户互动远比这复杂——用户会进行多轮对话,使用各种语言,询问分析、推荐、创意生成等多种类型的问题。
另外,用户对搜索增强型LLM的期望也不仅限于事实准确性。他们可能会根据引用数量、引用来源的相关性和可信度,以及回答的呈现方式来评判回答的质量。这就像你会更信任一个不仅能回答问题,还能告诉你信息来源的朋友,特别是当这些来源可靠且相关时。
为了全面理解这些复杂互动,研究团队创建了Search Arena平台,收集真实用户与搜索增强型LLM的交互数据。这个平台不仅记录用户提问和AI回答,还包括搜索过程中检索的URL、系统内部推理过程等元数据,以及用户对不同AI回答的偏好投票。
二、Search Arena:打造实时评估搜索增强型AI的开放平台
Search Arena是如何工作的呢?想象一个在线平台,用户可以向两个匿名的AI助手提问,这两个助手都能够实时搜索网络信息。用户提问后,两个AI同时回答,然后用户可以投票选择他们认为更好的回答。整个过程就像是AI之间的友好竞赛,而用户则是评委。
这个平台于2025年3月18日上线,到5月8日期间收集了超过24,000次对话和12,000次用户偏好投票。参与的用户来自136个国家,使用了70多种语言,涉及13种不同的模型配置。每次用户与平台互动,系统都会记录完整的对话历史、模型搜索的网页URL、模型的内部推理过程,以及用户的偏好投票。
与以往的评估数据集相比,Search Arena有几个显著特点:
首先,它的规模更大,覆盖面更广。SimpleQA只有约4,300个问题,BrowseComp只有约1,300个问题,且都是单轮英语问题。而Search Arena包含24,000多次对话,涵盖70多种语言,其中英语只占58.3%,俄语占11.8%,中文占7.0%,还有30多种语言至少出现在10次对话中。
其次,Search Arena支持多轮对话,约22.4%的对话包含多个回合,最多可达6个以上回合。这更接近真实世界中用户与AI助手的互动方式——用户往往会基于AI的回答提出后续问题或要求澄清。
第三,也是最重要的,Search Arena捕捉了多样化的用户意图。研究团队分析了用户提问,将其分为九类:事实查询(19.3%)、信息综合(18.6%)、分析(10.9%)、推荐(10.8%)、解释(10.4%)、创意生成(9.5%)、指导(9.1%)和文本处理(3.1%)。这表明,事实查询只占用户提问的一小部分,大多数用户希望AI能够提供更复杂的服务,如分析数据、提供推荐、解释概念或生成创意内容。
例如,一个事实查询可能是"Switch 2的价格是多少?",而信息综合则更复杂,如"总结2025年1月报道的五大与隐私相关的新闻、事件或新立法"。分析类问题可能是"我需要用Python表示Chronicle统一数据模型,请研究字段列表...",而推荐类问题则如"初学者适合的经济实惠的跑鞋有哪些?"
通过这种方式,Search Arena提供了一个更加全面、真实的视角,帮助我们理解人们如何使用搜索增强型AI,以及他们对这些系统的期望。
三、用户偏好分析:什么样的AI回答最受欢迎?
当我们去餐厅吃饭时,不仅关心食物的味道,还会注意服务态度、环境氛围和菜品呈现。同样,用户评判AI回答时也会考虑多种因素。伯克利团队分析了超过12,000次用户偏好投票,揭示了影响用户偏好的关键因素。
首先,推理能力显著提升用户体验。具有推理能力的模型(如能够分析问题、分解任务、回溯检查的模型)通常获得更高的赢率,前三名推理模型的平均赢率超过60%。这些模型不仅能解释和分析检索到的内容,还能重新排序信息源并过滤掉不相关信息。想象一下,这就像一位不仅能找到信息,还能帮你分析、整合并提炼出最有价值见解的研究助手。
其次,搜索上下文窗口大小也很重要。研究发现,具有较大搜索上下文窗口的模型表现更好。例如,sonar-pro的高搜索上下文版本赢率为63.9%,而中等搜索上下文版本仅为57.6%。这很容易理解——更大的搜索窗口意味着模型可以检索和处理更多的网络信息,从而提供更全面、更详细的回答。
第三,回答长度对用户偏好有显著影响。研究表明,用户通常更喜欢较长的回答,这一点在布拉德利-特里模型(用于分析用户偏好的统计模型)中体现为正向且显著的系数(βlength = 0.334)。不过,这种偏好在不同类型的问题中有所不同。例如,对于事实查询,用户对回答长度的偏好相对较小(βlength, factual = 0.156),这表明用户在寻求具体事实时更喜欢简洁的回答。
除了这些一般特征外,引用特性也极大地影响用户偏好。这就像学术论文中的引用一样,好的引用增加内容的可信度。研究团队从三个维度分析了引用对用户偏好的影响:引用源数量、引用源类型和引用内联归因。
关于引用源数量,研究发现用户更喜欢包含更多引用的回答,相关系数为正且显著(βcitations = 0.209)。这并不奇怪,就像我们更信任能够提供多个证据来源的专家一样。不过,研究还发现推理模型通常引用较少的来源,这可能是因为它们会过滤掉不相关的内容。
对于引用源类型,研究表明用户对不同来源有明显偏好。引用技术相关平台(如Stack Overflow)、社区平台(如Substack)和社交媒体(如TikTok)与正向用户偏好相关,系数分别为βtech = 0.073、βcommunity = 0.061和βsocial = 0.057。令人惊讶的是,引用维基百科与用户偏好负相关(βwiki = -0.071)。研究者分析了被拒绝的引用维基百科的模型回答,发现可能有两个原因:维基百科文章通常较长且范围广泛,可能与用户问题不直接相关;对于需要实时信息的查询,维基百科可能不是首选。
最后,关于引用归因,研究团队分析了引用是否真正支持AI的声明。他们将模型回答分解为一系列声明-引用对,评估每个引用是支持、无关还是矛盾相应声明。结果显示,虽然用户倾向于喜欢引用更多的回答,但他们似乎不区分支持性引用和无关引用——两者都与正向用户偏好相关(βsupport = 0.29,βirrelevant = 0.27)。这表明用户可能受到引用存在的影响,即使这些引用与内容无直接关联,这揭示了感知可信度与实际可信度之间的差距。
这就像我们可能会更信任一篇引用了很多学术文献的文章,即使我们没有实际检查这些引用是否真的支持文章的论点。这一发现引发了对如何改进引用归因的思考,以确保引用丰富的回答不会被错误地认为是事实和可信的。
四、跨场景分析:AI"上网能力"的通用性如何?
一个有趣的问题是:具有网络搜索能力的AI在不需要搜索的场景中表现如何?反之,没有搜索能力的AI在需要搜索的场景中又会怎样?这就像问一个既会游泳又会跑步的运动员,是否在跑步比赛中会因为会游泳而表现更差,或者在游泳比赛中会因为会跑步而表现更好。
为了探索这个问题,研究团队进行了"跨场景"分析,将搜索增强型AI部署在普通聊天环境(Text Arena)中,将普通AI部署在搜索密集型环境(Search Arena)中。他们选择了谷歌的Gemini-2.5 Pro模型进行测试,因为这个模型可以轻松开启或关闭网络搜索功能。
在Text Arena(普通聊天环境)中,研究团队收集了544场搜索模型与非搜索模型的对比,得到245次平局(45%)、143次搜索模型获胜(26%)和156次非搜索模型获胜(28%)。总体来看,搜索和非搜索模型在普通聊天环境中表现相当。但当细分不同类型的问题时,差异开始显现:对于事实查询(p值= 0.012)和信息综合(p值= 0.095)类问题,搜索模型表现更好;而对于文本处理(p值= 0.077)类问题,非搜索模型略占优势。
这很容易理解——即使在不期望AI使用网络的环境中,对于知识获取类任务,搜索增强型AI仍能提供更精确的数据、统计、日期、名称和专业术语。而对于文本处理类任务,非搜索模型往往提供更结构化的回答(如编号或项目符号列表、标题),这可能影响用户评价。
在Search Arena(搜索密集型环境)中,研究团队收集了315场非搜索模型与搜索增强模型的对比,得到99次平局(31%)、126次搜索模型获胜(40%)和90次非搜索模型获胜(29%)。搜索模型的优势更为明显(p值= 0.009),特别是在事实查询(p值= 5.8×10-5)和信息综合(p值= 0.092)类问题上。
这些跨场景实验表明,搜索增强不会损害AI在非搜索环境中的表现,甚至可能改善与信息检索和综合相关的回答。然而,在搜索密集型环境中,仅依靠模型自身知识的AI表现明显不足,特别是在处理事实性和实时信息时。
这就像一个既懂烹饪又懂营养学的厨师,在纯烹饪比赛中不会因为懂营养学而表现变差,反而在某些需要营养知识的烹饪任务中可能更有优势。但如果参加营养学专业考试,不懂营养学的纯厨师显然会处于劣势。
五、研究局限性与未来展望
任何研究都有其局限性,伯克利团队的这项研究也不例外。首先,众包数据分析提供了宝贵的用户偏好洞察,但可能存在人口统计偏差,无法完全代表更广泛的人群。并非所有用户都会选择投票,而人类判断本质上是主观的。
其次,对话数据涉及个人信息和潜在有价值的模型改进内容,其发布需要谨慎考虑隐私和公平访问问题。为了解决这些问题,研究团队匿名化了模型回答,随机排列左右位置以减少已知的人类偏见。在数据收集期间,没有向模型提供商提供早期访问数据,平台上也没有部署任何预发布模型。
研究团队在互动时获得了用户同意,并执行了严格的隐私政策。为帮助负责任地解释数据,他们分析了已知的偏见(如回答长度)并报告了用户人口统计信息。
展望未来,Search Arena数据集为研究人员提供了丰富的资源,可以深入研究搜索增强型LLM的各个方面。例如,可以进一步探索如何改进引用归因,确保AI不仅引用来源,还能准确反映这些来源的内容。还可以研究如何在保持事实准确性的同时,优化AI回答的呈现方式,使其更符合用户偏好。
另一个重要方向是探索如何让搜索增强型AI更好地处理多语言和多文化内容,确保它们能够为全球用户提供同样高质量的服务。随着这些系统越来越融入我们的日常生活,理解它们如何影响用户决策和信息获取也变得至关重要。
六、结论:搜索增强型AI的现状与意义
归根结底,伯克利团队的这项研究为我们提供了一个前所未有的窗口,让我们得以了解搜索增强型AI如何工作,以及人们如何与这些系统互动。Search Arena数据集的规模和多样性使其成为理解和改进这些系统的宝贵资源。
研究的主要发现包括:用户在与搜索增强型AI交互时有多样化的意图,远不止简单的事实查询;用户偏好受到回答长度、引用数量和引用来源类型的影响;引用存在可能影响用户对回答可信度的感知,即使这些引用与内容无直接关联;搜索能力不会损害AI在普通场景中的表现,但在需要搜索的场景中,普通AI表现不足。
这些发现对于开发下一代AI助手具有重要意义。它们提示我们需要设计能够处理多样化用户意图的系统,改进引用归因以增强实际可信度,并在不同场景中灵活运用搜索能力。
对于普通用户,这项研究提醒我们在使用搜索增强型AI时要保持批判性思考。虽然引用丰富的回答看起来更可信,但我们应该注意这些引用是否真正支持AI的声明。同时,我们也可以期待未来的AI助手能够更好地理解我们的需求,无论是简单的事实查询还是复杂的分析请求。
正如研究团队所言,他们希望通过开源这个数据集支持这一方向的未来研究。随着搜索增强型AI的不断发展,我们可以期待这些系统变得更加智能、更加可靠,最终成为我们日常生活和工作中更有价值的助手。
有兴趣深入了解这项研究的读者可以访问arXiv网站查阅完整论文(arXiv:2506.05334v1),或访问研究团队的项目网页获取数据集和代码。
好文章,需要你的鼓励
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。
这篇论文介绍了LegalSearchLM,一种创新的法律案例检索方法,将检索任务重新定义为法律要素生成。研究团队构建了LEGAR BENCH数据集,涵盖411种犯罪类型和120万案例,并开发了能直接生成关键法律要素的检索模型。实验表明,该模型在准确率上超越传统方法6-20%,且在未见犯罪类型上展现出强大泛化能力。这一突破为法律专业人士提供了更高效、精准的案例检索工具。