这项由ByteDance Seed团队的Ryan Wong、Jiawei Wang、Junjie Zhao等多名研究人员共同完成的研究发表于2025年1月,论文标题为《WideSearch: Benchmarking Agentic Broad Info-Seeking》。有兴趣深入了解的读者可以通过项目主页https://widesearch-seed.github.io/获取完整论文和相关资源。
当我们在网上搜索信息时,通常只需要找到一两个答案就够了。比如查询"今天的天气怎么样",得到一个准确答案就满足需求了。但现实生活中存在另一类截然不同的搜索任务——需要收集大量、全面、结构化信息的任务。设想你正在为孩子选择大学,需要找到所有常春藤盟校的最低GPA要求、申请截止日期和学费信息,并将这些信息整理成完整的表格。这种任务就像拼一幅巨大的拼图,每一块都必须准确无误地放在正确位置,缺少任何一片或放错任何一片,整幅图就是不完整的。
随着ChatGPT、Claude等AI助手的普及,人们开始期待这些智能代理能够自动完成这类繁重的信息收集工作。毕竟,让AI花几分钟做完人类需要几个小时才能完成的工作,听起来是个完美的解决方案。然而,ByteDance的这项研究却揭示了一个令人震惊的事实:即使是最先进的AI搜索代理,在这类看似简单的任务上也表现得极其糟糕。
研究团队创建了一个名为WideSearch的测试平台,专门用来评估AI代理在大规模信息收集任务上的表现。这个平台就像是给AI代理们出的一套"超级难题集",包含了200个精心设计的任务,涵盖从金融分析到求职、从学术研究到旅行规划等15个不同领域。每个任务都要求代理收集大量具体信息,并将其整理成完整、准确的表格形式。
研究团队测试了超过10个当前最先进的AI搜索系统,包括单一代理系统、多代理协作框架,以及OpenAI、Google、Anthropic等公司的商业端到端系统。测试结果令人震惊:几乎所有系统的成功率都接近0%,即使是表现最好的多代理系统,成功率也仅有5.1%。更令人意外的是,即使是人类,在单独完成这些任务时,成功率也只有20%。
这些数字背后隐藏着什么问题呢?研究团队深入分析发现,问题并不在于AI无法找到单个信息片段——实际上,在有足够重试次数的情况下,AI能够达到80%的单项信息查找准确率。真正的症结在于,这类任务要求绝对的完整性和准确性。就像制作一道精密的菜品,每一个步骤都必须完美执行,任何一个环节出错,整道菜就失败了。对于包含数千个数据点的任务来说,哪怕只是多了一条信息、少了一条信息,或者某一条信息不准确,整个任务就被判定为失败。
一、搜索代理遭遇的认知挑战
在传统的搜索任务中,AI就像一个专门的图书管理员,你问什么问题,它就给你找到相应的答案。这种"深度搜索"模式擅长挖掘特定信息,比如找到某个罕见问题的准确答案。另一种是"综合研究"模式,AI像一个研究生助手,能够收集各种信息并写成一篇报告。
但WideSearch代表的是第三种完全不同的搜索模式——"广度信息收集"。这就像要求AI成为一个超级高效的数据收集员,不仅要找到所有相关信息,还要确保信息的完整性、准确性和结构化呈现。这种任务的核心挑战不在于信息有多难找,而在于信息量巨大且要求零错误。
为了让读者更好理解这种差异,可以用餐厅类比来说明。深度搜索就像顾客点了一道特色菜,厨师需要精心制作这一道菜;综合研究像是要求厨师设计一套完整的晚餐菜单并解释每道菜的特色;而广度信息收集则像是要求厨师准确列出餐厅所有食材的供应商、价格、保质期和营养成分,并制作成一张完整无误的表格。
研究团队发现,当前的AI代理在执行这类任务时暴露出四个根本性缺陷。首先是规划不完整的问题。当AI面对复杂的多方面搜索任务时,往往无法将大任务完整分解为所有必要的子任务。比如要求收集大学申请信息时,AI可能想到要找GPA要求和学费,但忘记查询申请截止日期和联系方式。这就像一个新手厨师准备大餐时,可能记得买肉买菜,但忘记准备调料和餐具。
其次是缺乏反思和迭代改进机制。当初次搜索没有找到需要的信息时,优秀的人类搜索者会思考为什么没找到,然后调整搜索策略。但现在的AI代理往往在首次尝试失败后就放弃了,或者直接用不完整的信息给出答案。这就像一个人找钥匙,第一次没在口袋里找到就认为钥匙丢了,而不会想到去包里、桌子上或者车里找找。
第三个问题是证据使用失误。AI有时能找到正确的信息,但在理解和应用这些信息时出现错误。典型的情况是AI找到了某个大学的GPA要求是3.0,但这个信息实际上来自休斯顿大学的网页,AI却错误地将其归属于哈佛大学。这就像一个人在超市看到价格标签,但没注意到标签贴在了旁边商品上,结果买错了东西。
最后是知识幻觉问题。当搜索引擎没有返回有用信息时,AI有时会凭借内部训练数据"编造"答案。比如被要求查询2025年某国家公园的门票价格时,由于这是未来信息,搜索结果为空,但AI却给出了一个看似合理的具体价格,实际上这个价格是完全虚构的。
二、史上最严格的AI搜索能力测试
为了系统性地评估AI代理在大规模信息收集任务上的能力,研究团队设计了WideSearch基准测试。这个测试的设计理念就像给AI代理们设置了一道"终极考验",不是看它们能不能找到信息,而是看它们能不能像最专业的研究助手那样,完美无缺地完成大规模信息收集工作。
这个基准测试包含200个精心挑选和设计的任务,平均分为中英文各100个。每个任务都来源于真实的用户需求,涵盖了法律、地理、游戏、医疗、交通、学术、旅游、政府政策、体育、教育、社会学、技术、商业金融、艺术文化等18个不同领域。这种多元化设计确保了测试的全面性,就像一场综合性考试,不仅测试特定知识点,更考察综合应用能力。
每个任务的设计都遵循六个严格标准。首先是高搜索量和广度要求,任务必须需要大量不同的信息点,需要进行多轮搜索和长时间的处理过程。这就像要求考生不是回答一个问题,而是完成一整套调研报告。其次是时间和情境不变性,答案必须相对稳定,不会因为时间、地理位置或文化背景变化而改变,确保测试的长期有效性。
第三个标准是客观可验证性,每个任务都有确定的正确答案,可以进行客观、一致的评分。第四是公开可获取性,所有必需信息都能通过标准搜索引擎公开获得,确保任务的可解决性。第五是对外部工具的依赖性,任务被特意设计为超出AI内部知识范围,必须通过有效搜索才能完成。最后是场景多样性,确保测试涵盖多个行业领域,评估的是通用搜索能力而不是特定领域知识。
研究团队建立了一个五阶段的严格质量控制流程。这个流程就像一个多重筛选系统,确保每个进入最终测试集的任务都达到最高标准。首先是原始问题的筛选和重构阶段,人工注释员从大量真实用户查询中筛选出有潜力的问题,并将其重构为清晰、无歧义的测试任务。
接下来是黄金标准答案创建阶段,每个任务都被分配给人工注释员进行详尽的网络搜索,创建完整准确的标准答案。在这个过程中,注释员需要记录完成任务所需的时间、搜索查询次数、使用的关键词和查阅的网页数量等关键指标。
第三阶段是参数化知识过滤,确保任务确实需要使用搜索工具。研究团队将每个候选问题提交给多个强大的非工具增强AI模型,如果任何模型能仅凭内部知识完成任务,该问题就被排除。第四阶段是基于难度的筛选,利用人工注释员收集的性能指标进行定量难度评估。任何人类注释员在10分钟内或查阅少于10个网页就能完成的任务都被认为过于简单而被排除。
最后一个阶段是迭代优化和验证循环,形成临时基准集后,研究团队使用现有商业AI代理系统生成响应,然后用自动评估系统评分。同时,人工专家对相同响应进行评分。如果自动评估和人工评估结果相似度低于95%,任务就被标记需要修订。这个循环持续进行直到自动评估能够可靠反映人工判断。
为了量化这些任务的复杂性,研究团队对100个任务进行了详细的人工标注研究。结果显示,即使是经验丰富的研究人员,平均也需要2.33小时才能完成一个任务,需要查阅平均44.10个不同的网页。这些数字清楚地表明了任务的高复杂性和所需的巨大时间投入。
三、评估系统的创新设计
为了准确评估AI代理在这些复杂任务上的表现,研究团队开发了一个创新的混合自动评估系统。传统的AI评估往往只看最终答案是否正确,但WideSearch需要评估的是结构化的表格输出,这就像评判一份完整的研究报告,需要检查每个细节的准确性。
评估系统的工作流程就像一个严格的审稿过程。首先进行数据准备和语法验证,如果AI生成的不是有效的Markdown表格,或者列标题与标准答案不匹配,就直接得零分。这就像论文投稿时,如果格式不符合要求,编辑可能直接拒稿。
通过语法检查后,系统进行标准化和对齐处理。由于AI可能用略有不同的表述来描述同一实体(比如用"哈佛"代替"哈佛大学"),系统使用智能映射算法将语义相同但表述不同的内容对齐。然后通过预定义的主键将预测表格与标准答案表格进行连接,识别匹配行以及误报和漏报情况。
最核心的是混合项目级评分系统。对于每对对齐的行,系统逐一检查对应单元格,根据列的预标注类型选择相应评估方法。对于需要绝对精确的字符串使用完全匹配;对于数字使用数值近似匹配,允许微小的浮点数或格式变化;对于日期使用语义比较,能够识别不同格式但等价的日期表示;对于URL进行标准化验证;对于复杂情况(如翻译名称或细致描述)则使用大语言模型作为评判员,进行语义理解评估。
评估结果被汇总成多个互补的指标。主要指标是成功率,只有当生成的表格与标准答案完全匹配时任务才算成功。虽然这个指标提供了明确的整体任务完成度衡量,但其二元性质往往过于严格,特别是对于包含大量数据点的任务。
为了提供更细致的分析,系统还计算行级F1分数,将每行视为一个信息记录单元,以及项目级F1分数,将每个单元格视为基本比较单位。这种多层次评估就像评价一个学生的综合表现,不仅看总体成绩,还要分析各科目和各知识点的掌握情况。
为了提供更全面的性能评估,系统对每个任务进行N次独立运行并报告三种聚合策略的结果。平均值衡量代理的平均表现,通过值衡量代理的峰值能力(至少一次成功的任务百分比),最大值报告多次尝试中的最高分数。这种多角度分析就像评估运动员表现时,不仅看平均成绩,还要看最佳成绩和稳定性。
四、令人震惊的测试结果
当研究团队将这个严格的测试应用于当前最先进的AI搜索系统时,结果令所有人感到震惊。即使是技术巨头开发的最新AI代理,在这些看似常规的信息收集任务面前也显得束手无策。
在单一代理模式测试中,表现最好的是OpenAI的o3模型,成功率仅为4.5%。Claude Sonnet 4和ByteDance的Doubao-Seed-1.6分别达到2.3%和2.6%的成功率。其他知名模型如Gemini 2.5 Pro、Kimi K2和DeepSeek-R1的成功率都在1.5%以下。这些数字意味着,即使是最优秀的AI代理,在100个任务中也只能完美完成不到5个。
多代理协作框架的表现稍好一些,但仍然极其有限。OpenAI o3在多代理模式下达到了5.1%的最高成功率,Claude Sonnet 4为3.6%,Kimi K2为3.0%。虽然多代理模式普遍比单代理模式表现更好,但提升幅度相对较小,整体成功率仍然极低。
更令人意外的是商业端到端系统的表现。这些系统理论上经过了更多优化和调优,但在WideSearch测试中的表现甚至不如研究团队构建的简单代理框架。Gemini 2.5 Pro的端到端模式成功率为4.3%,OpenAI o3为3.0%,Claude Sonnet 4仅为2.5%。
为了验证这些任务对人类的难度,研究团队邀请了额外的人工注释员进行测试。令人惊讶的是,即使给人类充足时间并允许使用任何工具(包括现有AI助手),单个人的成功率也只有20%。这个结果说明了WideSearch任务确实具有极高的内在难度。
然而,通过多人协作和交叉验证(这正是创建标准答案时采用的方法),人类团队能够达到接近100%的成功率。这个对比揭示了一个重要洞察:这类任务需要的不仅仅是搜索能力,还需要协作、验证和迭代改进的能力。
研究团队还进行了测试时间扩展实验,让同一个AI模型(Kimi K2)对每个任务尝试不同次数,从1次到128次。结果显示,项目级F1分数随着尝试次数增加而显著提升,在128次尝试后甚至达到了近80分。这表明AI确实能够找到单个信息片段,问题在于无法在单次尝试中收集到所有必需信息。
但是,即使经过128次尝试,表格级成功率仍然只达到不到20分。这个结果清楚地表明,问题的关键不在于找不到信息,而在于要求绝对的完整性和准确性。对于包含5000个原子信息的任务,即使找到了4999个正确信息,只要多一个、少一个或错一个,整个任务就失败了。
五、深层问题的根源分析
通过对大量失败案例的深入分析,研究团队识别出了当前AI搜索代理面临的根本性问题。这些问题就像疾病的症状表象背后隐藏的病因,需要深入诊断才能找到治疗方案。
最突出的问题是查询分解不完整。当AI面对复杂的多方面搜索任务时,往往无法将大任务完整分解为所有必要的子查询。比如要求收集大学排名前五的五个学科领域大学信息时,AI可能成功识别出需要查询各个学科的顶尖大学,但却忘记后续需要收集每所大学的官网、申请截止日期和费用等附加信息。这就像一个人计划做一顿大餐,想到了要买主菜食材,但忘记了配菜、调料和餐具的采购清单。
第二个关键问题是缺乏反思和迭代改进机制。当初始工具调用返回空结果或信息不足时,理想的代理应该能够反思失败原因并主动调整搜索策略。比如重新表述关键词、扩大或缩小搜索范围、尝试不同的搜索引擎等。但研究发现,即使是高级推理模型也缺乏这种动态调整机制。它们往往在初次尝试失败后就放弃搜索,转而基于不完整信息或内部知识给出答案,反映出批判性思维和适应性规划的不足。
证据利用失误是另一个严重问题。这种失误出现在代理无法正确将最终答案建立在检索到的证据基础上的情况。典型表现有两种:要么代理误解或忽视相关来源的内容,要么未能验证来源的背景和相关性,从而错误应用事实正确但情境不当的信息。比如在查询哈佛大学土木工程硕士GPA要求时,AI找到了"GPA要求3.0/4.0"的信息,但这个信息实际来自休斯顿大学网站,AI却将其错误归属给哈佛大学。
知识幻觉和事实不一致问题同样严重。当搜索引擎无法返回相关信息时,AI有时会使用内部知识填补空白,这经常导致"幻觉"现象,即模型编造不存在的事实或提供与既定知识冲突的不正确信息。比如在查询2025年6月美国国家公园门票价格这种未来信息时,搜索正确返回空结果,但AI却给大沼泽地国家公园编造了15美元的具体票价。
除了这些高级认知缺陷,研究还发现了一些基础执行失误。工具调用错误是最常见的失误之一,通常由模型生成错误的参数格式、遗漏必要参数或试图调用不存在的工具引起。输出格式错误指部分AI无法严格遵守指令中规定的输出格式要求,比如无法生成Markdown表格或生成格式错误的表格。
上下文长度超限问题也较为突出,任务因模型生成过度冗长的中间步骤或陷入无效循环而提前终止。响应拒绝行为在一些查询中也有出现,主要表现为两种模式:模型认为用户问题存在歧义并要求进一步澄清以缩小查询范围,或者模型认为所需信息过于广泛而直接拒绝响应。
六、揭示AI能力边界的深层含义
WideSearch测试结果揭示了当前AI技术发展中一个重要但被忽视的能力缺陷。这个发现就像在AI能力地图上标出了一块"未知领域",提醒我们AI技术的发展还有很长的路要走。
测试结果最引人深思的方面是精确度与召回率之间的严重失衡。在所有测试子集中,AI的召回率都明显低于精确度。这意味着AI更容易找到正确的信息,但很难找到所有需要的信息。这种模式揭示了当前模型在全面信息获取能力上的关键缺陷,它们无法进行足够彻底的搜索来收集完成任务所需的所有信息。
这种能力缺陷的根源可能在于当前AI训练和设计的根本假设。大多数AI系统被训练来快速给出"足够好"的答案,而不是追求绝对完整和准确的信息收集。这就像训练一个学生在考试中快速答题拿到及格分数,而不是教他们如何进行详尽的学术研究。
多代理框架虽然在性能上有所提升,但改进幅度有限,这表明问题可能不仅仅是架构层面的,更可能是基础能力层面的缺陷。即使通过"分工合作"的方式,如果每个代理都存在基础能力不足的问题,整体系统的改进也会受到限制。
测试时间扩展实验的结果特别有启发性。当允许AI进行多次尝试时,单项信息查找能力可以接近80%,但整体任务成功率仍然很低。这个对比清楚地表明,问题不在于AI找不到信息,而在于无法在单次执行中系统性地收集和整合所有必需信息。这就像一个人具备开车的基本技能,但无法规划和执行一次复杂的长途旅行。
人类在单独执行这些任务时也只有20%的成功率,但通过多人协作可以达到近100%的成功率,这个对比揭示了协作和交叉验证在处理大规模信息任务中的重要性。这提示我们,未来的AI系统可能需要更好地模拟人类的协作模式,而不仅仅是个体智能。
研究结果还暴露了当前商业AI助手设计中的一个盲区。这些系统通常优化用户体验和对话流畅性,但在需要严格精度和完整性的专业任务上表现不佳。有些所谓的"深度研究"系统甚至难以遵循精确指令,倾向于生成冗长报告而不是所需的结构化表格。这说明当前AI助手的设计目标和实际应用需求之间存在错位。
七、技术发展的启示与展望
WideSearch研究的发现为AI技术的未来发展指明了几个重要方向。这些发现就像给AI研发人员提供了一张"能力缺陷地图",明确标出了需要重点攻克的技术难点。
首先,研究强烈暗示多代理架构是解决大规模信息任务的有前途方向。虽然当前多代理系统的改进幅度有限,但这可能是因为底层模型能力不足,而不是架构方向错误。未来的多代理系统需要实现真正的并行搜索和交叉验证,模拟专业研究团队的协作模式。这就像从单个厨师做菜转向专业厨房团队合作,每个人负责不同环节,通过协调配合完成复杂的大餐制作。
其次,需要开发更强的元认知和反思能力。当前AI缺乏对自身搜索过程的监控和调整能力,这是一个需要优先解决的基础问题。未来的AI系统需要能够评估搜索结果的质量和完整性,识别信息缺口,并动态调整搜索策略。这种能力就像一个经验丰富的侦探,不仅会收集线索,还会分析线索的质量和关联性,发现遗漏之处并调整调查方向。
第三,证据验证和归因机制需要根本性改进。AI必须学会严格验证信息来源的相关性和可靠性,避免将错误来源的正确信息归属给错误实体。这需要开发更sophisticated的信息溯源和验证算法,确保每个数据点都能准确追溯到其原始来源。
规划能力的系统性提升也是关键需求。当前AI在任务分解时容易遗漏重要子任务,需要开发更全面和系统的规划算法。这种算法应该能够从多个角度分析任务需求,生成完整的子任务清单,并在执行过程中动态调整计划。
此外,研究结果表明需要重新思考AI系统的训练目标和评估标准。当前大多数AI系统针对"足够好"的快速响应进行优化,但某些应用场景需要绝对的准确性和完整性。这需要开发新的训练方法和评估指标,专门针对高精度、高完整性的任务需求。
从实际应用角度看,这项研究也提示我们需要重新评估AI助手在专业工作流程中的角色定位。在需要高精度信息收集的场景中,AI可能更适合作为人类专家的增强工具,而不是完全替代方案。这种人机协作模式可能比完全自动化更加实用和可靠。
研究还揭示了基准测试设计的重要性。WideSearch通过关注实际应用场景中的关键能力缺陷,为AI研究提供了新的评估视角。这种以实际需求为导向的基准测试方法,对于指导AI技术向更实用的方向发展具有重要价值。
从更广阔的视角看,WideSearch研究提醒我们,AI能力的发展并非均匀的。在某些任务上表现出色的AI系统,可能在其他看似简单的任务上表现糟糕。这种能力分布的不均匀性需要在设计AI应用时充分考虑,避免过高估计AI在特定场景下的可靠性。
说到底,这项研究最大的价值在于诚实地承认了当前AI技术的局限性,并为未来改进指明了具体方向。正如研究团队所指出的,解决WideSearch任务需要的不仅仅是更强大的模型,更需要从根本上重新思考AI系统的设计理念和架构模式。只有这样,我们才能开发出真正可靠的AI助手,在专业任务中为人类提供有意义的帮助。
这项研究也提醒我们,AI技术的进步不应该只追求在标准测试中的高分,更应该关注在真实应用场景中的实用性和可靠性。WideSearch基准测试的价值就在于它源于真实需求,反映了用户在实际工作中遇到的挑战。这种以实用为导向的研究方法,对于推动AI技术走向成熟具有重要意义。
Q&A
Q1:WideSearch是什么?它和普通的搜索测试有什么区别?
A:WideSearch是ByteDance开发的专门测试AI搜索代理大规模信息收集能力的基准平台。它不同于普通搜索测试,不是找一两个答案就行,而是要求AI收集大量信息并整理成完整表格,任何信息缺失或错误都算失败。就像要求AI成为完美的研究助手,必须找到所有相关信息且不能有任何错漏。
Q2:为什么最先进的AI在WideSearch测试中表现这么差?
A:主要有四个原因:规划不完整(无法将复杂任务分解为所有必要的子任务)、缺乏反思机制(搜索失败后不会调整策略)、证据使用错误(找到信息但归属错误)、知识幻觉(搜索不到时会编造答案)。这些问题导致即使最好的AI成功率也只有5%左右。
Q3:WideSearch测试的结果对AI技术发展有什么启示?
A:研究结果表明需要重点发展多代理协作系统、增强AI的反思和规划能力、改进证据验证机制。同时提醒我们AI技术发展不均匀,在某些看似简单的任务上AI可能表现很差,需要重新评估AI在专业工作中的角色定位,更多考虑人机协作而非完全替代。
好文章,需要你的鼓励
AIM Intelligence联合多所知名大学揭示了音频AI系统的重大安全漏洞,开发出名为WhisperInject的攻击方法。这种攻击能让看似无害的音频指令操控AI生成危险内容,成功率超过86%,完全绕过现有安全机制。研究暴露了多模态AI系统的系统性安全风险,对全球数十亿智能设备构成潜在威胁。
新加坡国立大学研究团队系统梳理了视觉强化学习领域的最新进展,涵盖超过200项代表性工作。研究将该领域归纳为四大方向:多模态大语言模型、视觉生成、统一模型框架和视觉-语言-动作模型,分析了从RLHF到可验证奖励范式的政策优化策略演进,并识别出样本效率、泛化能力和安全部署等关键挑战,为这一快速发展的交叉学科提供了完整的技术地图。
浙江大学研究团队通过OmniEAR基准测试揭示了当前AI模型在物理世界推理方面的严重缺陷。测试显示,即使最先进的AI在明确指令下能达到85-96%成功率,但面对需要从物理约束推断行动的任务时,成功率骤降至56-85%。研究发现信息过载反而降低AI协作能力,监督学习虽能改善单体任务但对多智能体协作效果甚微,表明当前架构存在根本局限性。
纽约大学和Aimpoint Digital Labs的研究团队首次揭示了Transformer模型训练中"大规模激活"的完整发展轨迹。这些影响力比普通激活大千倍的"超级激活"遵循可预测的数学规律,研究者开发出五参数公式能以98.4%准确率预测其变化。更重要的是,通过调整模型架构参数如注意力密度、宽深比等,可以在训练前就预测和控制这些关键激活的行为,为设计更高效、量化友好的AI模型提供了全新工具。