微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 DeepResearchGym:一款免费、透明且可复现的深度研究评估沙盒,让研究者摆脱商业搜索API的束缚

DeepResearchGym:一款免费、透明且可复现的深度研究评估沙盒,让研究者摆脱商业搜索API的束缚

2025-06-01 19:00
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-01 19:00 科技行者

在人工智能技术日新月异的今天,深度研究系统正悄然改变着我们获取信息的方式。这类系统不再只是简单地返回排序的搜索结果,而是能够根据复杂查询自动生成全面且有充分依据的报告。然而,这项技术的发展面临着一个关键瓶颈:大多数现有框架依赖于动态变化的商业搜索API,不仅成本高昂,还给研究的透明度和可重复性带来了巨大挑战。

来自卡内基梅隆大学、葡萄牙NOVA LINCS和IST and INESC-ID的研究团队共同开发了一个名为DeepResearchGym的开源沙盒,希望解决这个问题。这项研究由Joao Coelho、Jingjie Ning、Jingyuan He等人共同完成,发表于2025年5月25日的arXiv预印本平台,论文编号为2505.19253v1。研究团队还提供了项目代码和API文档,感兴趣的读者可以通过https://www.deepresearchgym.ai访问。

一、深度研究系统:复杂信息整合的未来趋势

想象一下,你想了解"新冠疫苗是否危险"这个问题。传统搜索引擎会给你一长串链接,你需要自己点击、阅读、筛选和整合信息。而深度研究系统则像是给你配备了一位虚拟助手,它会自动浏览多个来源,提取关键信息,考虑不同观点,最后生成一份全面的分析报告,甚至还会告诉你信息来自哪里,以便你自行验证。

这种新型系统通常被称为"深度研究系统",它们结合了迭代检索、多步推理和生成能力,能够自主导航和评估各种信息源,为复杂问题构建有据可查的报告。OpenAI和Perplexity等公司已经推出了深度研究模式,展示了这类系统在处理需要跨多角度、多领域综合信息的复杂问题时的强大潜力。Google也在向AI驱动的搜索工具转型,Apple则计划将OpenAI和Perplexity等服务集成到Safari浏览器中。

然而,这些深度研究系统的研发和评估面临着一个关键挑战:大多数现有框架依赖于商业Web搜索API,这些API虽然方便,但存在三大问题:一是专有性导致检索过程缺乏透明度;二是持续演变使得实验难以复现;三是使用成本高昂。这些问题极大限制了深度研究系统的学术研究和创新。

二、DeepResearchGym:开放透明的研究沙盒

为了解决上述问题,研究团队开发了DeepResearchGym,这是一个专为深度研究系统设计的开源评估框架。想象它就像是一个专业的健身房,为"信息肌肉"的锻炼提供了所有必要的设备和环境,而且是免费开放的。

DeepResearchGym的核心是一个基于公共网络快照的免费开源搜索API。这些网络快照包含了数百万文档,主要来自ClueWeb22和FineWeb两个大规模网络语料库。API提供了标准化接口,支持文档检索和内容访问,可以轻松集成到长篇生成管道中。

与依赖不断变化的商业服务不同,DeepResearchGym的搜索基础设施设计强调透明性和可重复性。整个检索管道由公开可用的组件构成,包括文档集合、先进的嵌入模型和可扩展的近似最近邻搜索索引。这种设计允许研究人员审计系统行为,分析检索证据的影响,并在可重复的搜索条件下重新运行深度研究实验,因为检索结果会随时间保持稳定。

想象你正在研究"人工智能的伦理问题"。使用商业搜索API时,今天得到的结果可能与明天完全不同,导致最终生成的报告也各不相同,难以进行科学的比较。而使用DeepResearchGym,你可以确保每次实验都基于相同的信息基础,就像在实验室中控制变量一样,从而实现真正可重复的研究。

三、技术细节:搜索基础设施的构建与实现

DeepResearchGym目前索引了两个主要的大规模网络数据集:ClueWeb22-B的英文子集和FineWeb CC-MAIN-2024-51快照。这就像是为研究者提供了两种不同的"健身器材",各有特点。

ClueWeb22于2022年收集,包含约100亿个网页。其中的B类别(ClueWeb22-B)代表网络的"超级头部",包括最常访问的页面(如Wikipedia、主要新闻媒体和其他顶级域名),共有约2亿个网页,其中8700万为英文。这些页面基于满足用户信息需求的可能性进行抽样,同时过滤了低质量和垃圾页面。这个子集特别适合那些希望在广泛覆盖和高精度之间取得平衡的系统。

FineWeb则是从2013年至2024年间的96个Common Crawl快照中收集的大规模英文网络语料库,包含约15万亿个经过清洗和去重的网络数据标记。研究团队专注于2024年第51周的最新爬取内容,其中包含超过1.8亿文档,比早期数据捕捉了更多最新趋势。这使得该集合对需要最新信息的查询特别有价值。

DeepResearchGym独立索引这些语料库,为研究者提供灵活的评估设置:从高度策划、稳定的分布(ClueWeb22)到更新但可能更嘈杂的环境(FineWeb)。这就像是在同一家健身房提供了两种不同的训练环境,一个更加精确规范,另一个更接近真实世界的复杂性。

为了在选定的语料库上实现高效的检索,研究团队构建了一个分布式密集检索后端,结合了最先进的嵌入模型和近似最近邻搜索。具体来说,他们使用了MiniCPM-Embedding-Light模型,这是一个在2.6亿查询-文档对上训练的密集检索编码器,能够生成1024维的文档表示。该模型利用双向注意力机制和加权平均池化来捕获文档中长达8192个标记的长程依赖关系。在BEIR基准测试上,该模型的零样本性能达到55.27的nDCG@10,优于其他流行的替代方案。

这些文档嵌入通过DiskANN进行索引,这是一个基于图的近似最近邻框架,针对十亿规模搜索进行了优化,具有低延迟和内存开销。为确保可扩展性,每个语料库被分割成独立的分片,每个分片最多包含2500万文档。在搜索时,系统并行查询分片,然后合并顶级排名结果,实现了网络规模的高效灵活检索。

在Researchy Queries测试集上的评估显示,搜索系统展现了强大的检索效果,近似搜索引入的误差最小,并且在低延迟下依然保持高质量的结果。这就像是健身房中的设备不仅质量上乘,还能让你快速高效地完成训练。

四、API设计:简单易用的搜索接口

DeepResearchGym提供了一个专为支持深度研究系统设计的检索API,主要暴露两个端点:/search端点接受文本查询并返回从所选语料库中检索的文档排序列表;/fetch端点则根据给定URL检索文档的存档文本内容。

/search端点支持在前面介绍的两个语料库上进行文档检索。通过这些固定集合进行操作,它能够提供一致且可重复的搜索结果,消除了因网络内容变化或实时索引更新导致的差异。这种稳定性对于需要可靠检索行为的长篇生成系统的基准测试至关重要。

在搜索参数方面,API默认采用动态行为,即L=K×5(其中L是DiskANN搜索时参数,控制搜索过程中探索的候选邻居列表大小;K是检索的文档数量)。由于深度研究系统通常是顺序发出查询而非批量处理,研究团队在这种单查询设置中评估了API的延迟,并与商业替代方案进行了比较。结果显示,无论检索的文档数量如何变化,DeepResearchGym的API一致地在半秒内响应,性能优于商业服务。值得注意的是,这些延迟值不仅包括近似最近邻搜索,还包括API固有的网络请求和查询编码,如果需要,还可以通过批处理机制进一步改进。

/fetch端点则解决了深度研究系统中使用静态网络语料库的特定挑战。在生成过程中,系统通过/search端点检索文档,访问爬取期间捕获的版本。它们的最终报告引用这些文档相关的原始URL。然而,自原始爬取以来,这些URL的实时内容可能已经发生变化或消失。为了缓解这种差异,/fetch端点提供了爬取期间捕获的文档快照,确保可以检索到报告中引用的URL的原始内容。这种设计使得可以构建独立于动态或降级外部源的隔离深度研究管道。该端点的延迟中位数为每个请求0.09秒。

与通常需要付费订阅或实施严格使用限制的商业API不同,DeepResearchGym的API对研究用途是免费提供的,用户只需获得对底层语料库的访问权限。FineWeb访问是即时的,而ClueWeb22访问则需要签署一份轻量级数据许可协议,该协议反映了数据集的研究用途条款和版权条件。完成此协议后,用户可以访问完整的基于ClueWeb22的端点,并可选择下载ClueWeb22-B子集以进行本地部署。为支持这种本地实现,研究团队提供了用于设置完整检索管道的开源代码。为了保护用户隐私,除非用户明确选择参与研究,否则API不会记录查询流量。

五、评估方法:全面衡量深度研究质量

为了展示DeepResearchGym如何支持深度研究系统的评估,研究团队基于Researchy Questions数据集实例化了一个评估协议。这个数据集源自Bing搜索日志,包含与用户参与相关的复杂查询,使其非常适合基准测试能够合成长篇多角度报告的系统。

虽然该沙盒与特定评估任务无关,并且兼容广泛的用例,但研究团队引入了这个协议来填补当前评估领域的空白,并使用他们的API提供初步的实证观察。该协议从三个维度对生成的报告进行评分:总体报告质量、对检索源的事实忠实度以及与用户信息需求的一致性。

Researchy Questions数据集是专门策划的,旨在捕捉那些自然驱动广泛信息探索和综合的查询。该数据集不是简单的事实型问题,而是由约96,000个真实世界的信息寻求查询组成,这些查询导致用户在搜索会话中与多个文档交互,通过在ClueWeb22上的聚合点击分布进行测量。与专注于定位单一事实的简短可回答查询不同,Researchy Questions展示了需要更广泛探索和更深入理解的复杂性。

研究团队按照三个评估维度设计了用于评估长篇报告的度量:

1. 报告相关性:作为评估用户满意度的主要指标,研究团队评估生成的报告在多大程度上满足了用户的潜在信息需求。由于Researchy Questions来自真实世界的网络搜索会话,他们利用用户点击的文档集作为地面真相信息目标的代理。他们提取每个地面真相文档中的显著点,捕捉用户交互的核心内容,然后评估每个生成的报告对这些关键点的语义包含情况。同时也计算了关键点矛盾度,该指标衡量报告是否引入了与任何关键点冲突的陈述,捕捉潜在的错误信息或误导性内容。

2. 检索忠实度:研究团队评估了生成报告的事实基础,采用了类似TREC-RAG评估过程的"LLM-as-a-judge"方法。他们的自动引用评估管道遵循三个阶段:首先,从报告中提取事实性声明及其引用的URL;其次,检索每个引用源的内容;第三,提示LLM评估引用的源是否充分支持相应的声明。这个过程捕捉了引用的存在和它们的实质性有效性。

3. 报告质量:为了捕捉写作质量和分析深度,研究团队采用了另一个LLM-as-a-Judge协议,从两个关键维度评估每个答案:清晰度(反映逻辑连贯性和语言流畅性)和洞察力(捕捉分析细微差别和呈现推理的深度)。

六、实验设置与系统评估

为了评估当前深度研究系统的现状,研究团队进行了系统的基准测试研究,遵循前面描述的协议,使用gpt-4.1-mini-2025-04-14作为LLM评判者。他们使用了之前介绍的Researchy Questions数据集的子集,即测试集中按照原始搜索会话中点击文档数量排名的前1,000个查询。这种排名自然倾向于推动广泛探索的查询,与深度研究系统的目标一致。

研究团队评估了一系列横跨商业和开源实现的深度研究系统。商业系统包括OpenAI的gpt4-search-preview和Perplexity的sonar-deepresearch,代表了各自API可用的最强变体。在开源方面,他们包括了GPT-Researcher和HuggingFace DeepSearch。所有四个系统都能生成长篇报告。他们还评估了三个学术系统:OpenDeepSearch能产生类似全面的输出,而Search-o1和Search-R1则专注于简洁的短篇回答。虽然后两个系统不是为深度研究任务设计的,但它们作为下限参考,帮助验证评估指标是否能捕捉生成能力的有意义差异。所有系统都使用其默认配置进行评估。

利用DeepResearchGym搜索API的实验默认使用ClueWeb22-B语料库,因为它与Researchy Questions基准测试的一致性更高。值得回顾的是,FineWeb也可以通过API端点获得,与ClueWeb22不同,它不需要签署研究使用许可证。

表2展示了每个系统在两种不同检索配置下的评估结果:使用系统原始商业搜索API和使用标准化的DeepResearchGym搜索API。结果揭示了几个重要见解:首先,系统在两种检索设置中通常保持它们的相对性能排名,证实了DeepResearchGym的搜索API提供了足够的检索质量来支持有效的报告生成。

其次,研究团队观察到不同评估维度相对难度的一致模式。即使是表现最佳的系统,如perplexity-sonar-deepsearch和GPT-Researcher,在报告质量指标(清晰度、洞察力)上的得分也明显高于信息覆盖指标(KPR),表明语言流畅性已经超过了全面的内容综合。这种模式在两种检索环境中都成立,表明深度研究中存在一个超越检索基础设施的内在挑战。

第三,引用实践方面存在显著的性能差距。GPT-Researcher和OpenDeepSearch展示了强大的引用精确度和召回率,有效地将事实性声明基于检索的证据。相比之下,HuggingFace的deepresearch等系统的引用指标接近零,源于忽略显式引用机制的基本设计选择。这突显了不同方法在概念化证据基础方面的关键区别,无论是通过显式源归属还是隐式知识整合。

评估还揭示了商业系统中的一个有趣的权衡,它们往往在叙述质量方面表现出色,但有时牺牲了精细的引用精确度。人工检查表明两种常见模式:这些系统通常使用引用来证明更广泛的报告部分而非特定声明,它们有时引用无法完全爬取的URL。这表明当前系统设计中可能存在一种潜在的紧张关系,一方面是优化叙述连贯性,另一方面是精确的证据锚定。

七、查询级分析与人工评估

为了进一步调查系统性能在各个查询中的一致性,研究团队对使用每个系统原始检索API和DeepResearchGym API获得的结果进行了细粒度分析,只关注明确面向长篇报告生成的系统。图2显示了三个评估维度中每查询得分的散点图,Spearman相关系数量化了检索配置之间的一致性。

分析揭示了评估维度之间的不同模式。在相关性(KPR)方面,性能更强的系统表现出中度到高度的相关性,表明在过渡到DeepResearchGym语料库时,查询级检索有效性很大程度上得到了保留。然而,中等范围的查询显示出一些得分变异性,表明某些信息需求对检索基础设施的差异更敏感。相比之下,尽管顶级系统的绝对分数很高,但报告质量指标在每个查询之间表现出较低的相关性。这意味着虽然叙述流畅性和连贯性对检索变化具有鲁棒性,但它们与个别查询特征没有紧密耦合。

检索忠实度在各系统中显示出最低的每查询相关性,表明这个维度对检索证据的差异很敏感。检索文档的变化不仅会影响声明得到支持的程度,还会影响声明本身,导致引用忠实度分数在检索设置之间有所变化。虽然跨查询的平均分数保持稳定,一些个别查询在两个来源中都产生一致的高分,但更广泛的模式缺乏一致性,大多数点分散且没有明显的线性趋势。这种变异性强调了在基准测试深度研究系统时使用标准检索API的重要性,因为它有助于控制检索效果,确保观察到的差异源于模型行为而非不同的证据获取。

为了验证自动评估协议并评估其与人类判断的一致性,研究团队还进行了系统的人工评估研究。评估集包括210个查询及其相应的生成报告。对于每个查询,他们向注释者展示两个不同系统生成的报告,要求他们根据整体信息性、连贯性和事实准确性选择更好的一个。七位注释者(都是论文的共同作者)参与了研究,每个查询由三个不同的个人独立评估。为了减轻潜在的偏见,评估是双盲进行的:注释者不知道哪些系统产生了每个报告,系统分配在查询之间是随机的。报告展示顺序也是随机的,以防止位置偏见,不允许平局以强制二元偏好。

为了评估注释者间的可靠性,研究团队计算了所有注释比较的成对Cohen's κ分数。平均成对κ为0.87,表明注释者之间高度一致,支持人类判断的一致性。表3展示了衡量LLM基于自动判断与人类偏好之间一致性的Cohen's κ值,而图3展示了成对胜率,显示基于人类注释,每个系统比另一个系统更受偏好的百分比。结果表明,自动与人工评估在系统性能排序上高度一致,这验证了研究团队的LLM-as-a-judge评估协议,增强了对之前部分介绍的基准测试结果的信心。

八、总结与未来展望

DeepResearchGym为开发和基准测试深度研究系统提供了一个可复现的沙盒,为商业搜索API提供了一个稳定的替代方案。通过将检索锚定到高质量的网络语料库,并将搜索API与多维评估协议相结合,该框架实现了对生成长篇报告的系统进行受控的基准测试。

研究结果表明,DeepResearchGym的搜索API为商业检索基础设施提供了可靠的研究级替代品。在多个评估维度上,所有评估的系统在从专有搜索API过渡到透明且可复现的检索环境时都保持了相当的性能,确认DeepResearchGym保留了支持复杂报告式综合所需的检索保真度。通过隔离系统行为与波动的检索条件,DeepResearchGym为深度研究系统的可复现和公平基准测试提供了稳定基础。

未来对DeepResearchGym的扩展可能扩大覆盖范围至更大、更新的网络语料库,使得评估对时间敏感的查询和新兴主题成为可能。此外,整合领域特定基准可能进一步支持在医疗保健或法律等高风险环境中的评估,在这些环境中,检索精度和事实可靠性至关重要。最后,该平台为测试新的代理架构(包括结构化规划、迭代搜索和强化学习)提供了空间,推进了深度研究系统的研究。

然而,当前的局限性包括:深度研究系统对专有且不断发展的LLM的依赖,这限制了输出的完全可复现性;LLM-as-a-judge协议引入的评估变异性,尽管有提示/输出标准化;以及使用静态网络语料库,这限制了对新兴或时间敏感内容的覆盖。伦理风险也适用,如偏见放大、错误信息或检索内容的误用,尽管DeepResearchGym主要针对学术研究,而非实际部署。

总之,DeepResearchGym代表了向更透明、更可复现的深度研究评估迈出的重要一步,为研究人员提供了摆脱专有商业API束缚的工具,同时保持了现实检索环境的质量和复杂性。这个框架不仅支持当前深度研究系统的基准测试,还为未来更高级、更复杂系统的发展铺平了道路。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。

  • 微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。

  • 用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。

  • 播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-