
这项由俄亥俄州立大学与亚马逊AGI旧金山实验室联合开展的研究,于2026年5月以预印本形式发布在arXiv平台,编号为arXiv:2605.24218。研究团队推出了一套名为Quest的开源AI深度研究智能体家族,模型规模从20亿参数跨越至350亿参数,在八项主流深度研究评测基准上的综合表现超越了现有所有开源模型,并在多个指标上接近甚至超过了OpenAI DeepResearch等顶级商业系统。
在我们的日常工作和学习中,"查资料"这件事正在经历一场悄然的革命。传统搜索引擎能帮你找到一堆相关网页,但把这些网页里的内容整理成一份有条理、有引用来源的分析报告,还是得靠你自己埋头苦读几个小时。近年来,OpenAI、Google等科技巨头相继推出了所谓的"深度研究"功能,能自动搜索、阅读、分析网页并生成带有引用链接的专业报告——但这些功能全都是封闭的商业产品,外界无从知晓其背后的训练方法和数据来源。
俄亥俄州立大学的研究团队瞄准了这个空白。他们的问题是:有没有可能仅靠完全由机器自动生成的训练题目,就培养出一个在各类深度研究任务上都表现出色的AI助手?他们给出的答案,就是Quest。
一、为什么"全能"比"专能"更难
在理解Quest之前,有必要先搞清楚深度研究这件事到底难在哪里。研究团队将深度研究任务拆解为三种核心能力,这三种能力的关系就像一个厨师需要同时掌握选材、烹饪和摆盘三项技能,缺一不可。
第一种能力是**事实检索**:给定一个具体问题,比如"哪位建筑师设计了《麦田里的守望者》作者居住了数十年的那栋房子",AI需要通过多轮网络搜索和网页阅读,从海量信息中挖掘出藏得很深的答案。这类任务有点像侦探办案——线索散落在各处,需要耐心拼凑。BrowseComp就是专门测试这种能力的基准,出题者刻意选择了那些普通搜索很难一次命中的"刁钻"问题。
第二种能力是**报告合成**:给定一个开放性课题,比如"评估苹果公司进军折叠屏手机市场的战略布局",AI需要广泛阅读多方资料,将不同来源的信息提炼、整合,最终输出一篇结构清晰、观点有据、可供决策参考的完整报告。DeepResearch Bench正是评估这种能力的基准,其评分不看单一答案的对错,而是综合考量报告的覆盖面、洞察力、逻辑性和可读性。
第三种能力是**引用溯源**:无论是回答事实问题还是撰写分析报告,AI给出的每一条关键陈述都应当附上可验证的网页链接,让读者能够自行核实信息来源。Mind2Web 2专门测试这种"边说边注脚"的能力。
现有的开源研究智能体普遍存在一个短板:它们往往在某一类任务上表现亮眼,但换了任务类型就掉链子。原因说到底在于训练数据的"偏食"——用什么类型的题目训练,模型就擅长什么类型的任务。要打造一个真正全能的研究助手,就必须找到一种统一的方法,同时生成覆盖这三类能力的高质量训练数据,并且这套数据还得能够自动评分、无需人工标注。这正是Quest研究的核心挑战所在。
二、一棵"评分树"统领所有题型
Quest解决训练数据问题的核心发明,是一种叫做**评分树(Rubric Tree)**的数据结构。你可以把它理解成一份多层次的打分清单,但这个清单不是平铺直叙的,而是像一棵树一样层层分支。
树的根节点代表最终得分,根节点下面分叉出若干子节点,每个子节点对应一条评分标准。子节点可以继续向下分叉,直到叶子节点——叶子节点代表一条最具体、可以直接用程序判断"满足/不满足"的要求。比如对于"识别2024年美国两起李斯特菌疫情"这道题,树的结构是:根节点要求"正确识别两起疫情并比较死亡人数",根节点分叉出"识别第一起疫情(Boar's Head品牌,死亡10人)"和"识别第二起疫情(Rizo-López品牌,死亡2人)"两个子节点,再下一层则要求提供支持该答案的网页链接。每个叶子节点的得分是0或1,分数从下到上逐层汇聚,最终得出一个介于0到1之间的综合分数。
这棵树的精妙之处在于它的通用性。对于有标准答案的客观题,树的叶子节点直接核查具体事实是否正确;对于没有唯一答案的开放性报告题,叶子节点则核查报告是否覆盖了某个议题、是否引用了可信来源、行文是否清晰流畅。换句话说,不同类型的题目可以共用同一套树状评分框架,只是叶子节点的具体内容不同。这让研究团队得以用一套统一的流程生成覆盖三类能力的训练数据,而无需为每类任务单独设计评估逻辑。
这棵树还解决了强化学习中的一个老大难问题:奖励信号太粗糙。过去,训练AI做研究任务时,通常只能给一个"对/错"的二元反馈,模型做了一大堆推理,最后因为答案差了一个字就得了零分,这对学习极为不利。评分树提供的是细粒度的部分得分——哪怕最终答案不完全正确,只要模型正确识别了其中某个关键事实、提供了有效的引用链接,就能得到相应的部分分数。这就好比老师批改作文时不只看结论对不对,而是逐段给分,让学生知道哪里做得好、哪里还需要改进。
三、机器自己出题自己验题:数据合成流水线
有了评分树这个框架,Quest的数据合成流水线就可以运转起来了。整个流程的关键特点是**全自动**——从出题到建树到生成评分脚本,全部由机器完成,不需要人工标注。
对于客观题,流程是这样运作的:系统首先从Google Trends抓取当前热门关键词,这一步确保生成的题目具有时效性,反映真实的用户信息需求,而不是闭门造车。然后,系统让一个强大的语言模型(研究中使用的是Claude Sonnet 4.5)扮演"探索者"角色,自主在网络上搜索与这些关键词相关的内容,从搜索结果中提炼出一组可以被客观验证的约束条件,并将这些约束条件组织成一棵评分树。评分树经过多轮自动精炼和验证,确保逻辑自洽、每个节点都有明确的判断标准。通过验证的评分树再被转换成自然语言问题,最后由GPT-5生成一段可直接执行的Python程序,这段程序就是该题的"自动阅卷机"——给定一份AI的回答,程序逐节点核查,输出最终得分。
整个过程中,从17000道初始生成的客观题,经过评分树精炼、逻辑验证、Python脚本可执行性检查等多道筛选,最终保留了约5934道高质量客观题。筛选率不到35%,可见质量门槛之严格。
开放性报告题的流程与客观题大体相似,但有几处关键差异。评分树的第二层节点是固定的四个维度——指令遵循、覆盖全面性、可读性、洞察力——这四个维度直接沿用了DeepResearch Bench的评估框架;第三层则是由模型根据具体题目自适应生成的子标准。评分时,系统会先让模型为每道题生成一份"参考报告",然后在评分阶段同时给被测模型的回答和参考报告打分,最终以"候选报告得分 ÷(候选报告得分 + 参考报告得分)"作为归一化后的相对分数。当这个比值超过0.5,意味着候选报告质量已超过参考报告。之所以采用这种相对评分而非绝对评分,是因为纯粹的绝对打分容易出现"分数虚高"问题——没有对比参照时,评分模型倾向于给所有回答打高分,区分不出好坏。
四、不让AI在"长途旅行"中迷路:上下文管理机制
深度研究任务天生是"长途旅行"——AI需要搜索数十个关键词、阅读数十个网页、经历数百轮推理,才能最终给出答案。现有大语言模型都有"上下文窗口"的限制,就像工作记忆有上限一样,一旦搜索记录和阅读笔记积累得太多,最早的内容就会被"挤出窗口",AI就会忘记自己之前发现了什么,开始重复已经做过的搜索,甚至前后矛盾。
Quest的应对方案是内置一套**上下文管理机制**,核心是一个叫做"上下文浓缩器"的模块。当AI的工作记忆快要装满时,这个模块会介入,把迄今为止所有的搜索记录、网页摘要和推理轨迹压缩成一份结构化的JSON文件,也就是所谓的"上下文状态",然后清空工作记忆,让AI在新鲜的工作空间里继续工作,但随身携带着这份压缩后的知识摘要。
这份JSON摘要并不是把所有信息一锅烩地压缩,而是将已有知识分门别类地存入三个"抽屉"。第一个抽屉存放**可信事实**:AI已经通过访问网页核实过的信息,附有来源网址,可以直接引用,无需重新核查。第二个抽屉存放**不可信声明**:AI发现的、已被其他来源反驳或质疑的信息,附有被质疑的原因,以便AI在后续推理中绕开这些"地雷"。第三个抽屉存放**待核实线索**:AI遇到过但尚未确认的信息,每条线索都附有一个明确的"下一步行动"——比如"访问某个具体网址"或"以某个关键词重新搜索"。当AI恢复工作时,它会优先处理这些待核实线索,而不是茫然地重新开始。
这套机制让Quest能够在不受模型原生上下文窗口限制的情况下无限延伸研究深度。研究团队发现,虽然训练时的轨迹最多只有100步工具调用,但推理时Quest能够流畅地完成超过200步的交互,证明上下文管理机制带来的能力延伸效果是真实且稳定的。
五、三阶段培训:从零开始打造研究专家
有了数据和工具,Quest的训练过程分为三个递进的阶段,就像培养一名研究员需要先学基础知识、再做实习、最后靠实战反馈精进一样。
第一阶段是**中间训练**,目标是让模型具备两项基础能力,而这两项能力是后续深度研究所必需的。第一项是上下文摘要能力:给定一段很长的搜索和浏览历史,模型需要将其压缩成符合上述三抽屉格式的JSON摘要。训练数据直接来源于SFT阶段的轨迹收集过程——每当上下文浓缩器被触发时,它的输入输出对就自然构成了中间训练的样本,所以这部分数据几乎是"零成本"获得的。第二项是网页信息提取能力:给定一份杂乱的HTML网页和一个提取目标,模型需要过滤掉广告、导航栏、无关内容,只保留与目标相关的核心信息。这项能力的训练数据来自"访问"工具的缓存记录——AI在实际运行中访问的所有网页及其提取摘要,自然构成了训练对。这一阶段使用了约31万条上下文摘要样本和超过100万条网页提取样本,在32块H100 GPU上训练了约5天。
第二阶段是**有监督微调**,让模型直接模仿高质量的完整研究轨迹。研究团队先让Tongyi DeepResearch(阿里巴巴推出的深度研究系统)在Quest合成的训练题目上进行实际搜索研究,生成完整的工具调用轨迹。如果生成的回答经评分树评估后得分超过阈值(客观题要求满分,开放题要求相对分超过0.475),就将这条轨迹保留为训练样本。对于得分不达标的客观题,系统会把评分树的详细反馈注入提示词,让Tongyi重新尝试——这相当于给AI学生批改完作业后告知错在哪里,让它重做一遍。整个过程共收集了约7028道题的有效轨迹,分解为约5万个"会话级"训练片段。
所谓"会话级"训练是Quest的另一项重要设计:每条完整轨迹根据上下文浓缩被触发的次数,被切分成若干个独立会话段,每段都包含从上次浓缩开始到下次浓缩之间的完整交互。这样切分有两个好处:一是每个训练片段的长度大幅缩短,使得用16块H100 GPU就能处理原本需要巨大内存才能处理的超长轨迹;二是训练单元与推理时的实际工作单元对齐,让模型在训练和推理时面对相同的信息格式。
第三阶段是**强化学习**,让模型通过"做题→评分→反思→改进"的循环进一步提升能力。奖励函数由两部分组成。主体部分是评分树奖励:对于客观题,直接使用Python脚本的评分结果;对于开放题,将连续的相对分数映射到四个离散奖励档(1.0、0.75、0.5、0.25、0),以减少分数微小波动带来的噪声。辅助部分是引用核实奖励:系统从AI的回答中提取所有"事实陈述 + 来源网址"的引用对,实际访问这些网址,由GPT-5-mini判断网页内容是否确实支持对应陈述,以有效引用占比作为奖励。两部分奖励的合并公式是"0.75 × 评分树奖励 + 0.25 × min(引用奖励, 评分树奖励)",其中min操作符的作用是防止AI钻空子——仅靠堆砌大量准确引用而实际上没有解决问题就获得高分。
六、实验结果:8000道题换来的能力跃升
Quest-35B在八项基准上的表现,清晰地展示了这套训练方案的实际效果。
在最能体现"深挖能力"的BrowseComp基准上,Quest-35B达到了64.6%的准确率(使用"舍弃所有旧上下文"策略),超过了OpenAI DeepResearch的51.5%,仅次于Gemini 3.1 Pro(85.9%)和Claude Opus 4.6(84.0%)等顶级商业系统。在测试引用溯源能力的Mind2Web 2上,Quest-35B以30.7%的成功率排名所有模型中的第一,超过了OpenAI DeepResearch的28.0%。在综合性最强的DeepResearch Bench上,Quest-35B以48.2%的综合分超过了OpenAI DeepResearch的47.0%,跻身所有模型前列。在考察广泛事实检索的GAIA基准上,Quest-35B以80.8%的准确率超过了GPT-5的76.4%,是所有模型中的最高分。
为了进行更公平的参数量对比,研究团队还用同样的训练方案训练了一个Quest-30B版本,与同规模的Tongyi DeepResearch和OpenResearcher正面比较。结果显示:Quest-30B在八项基准中的四项上拿到最高分,包括Mind2Web 2和DeepResearch Bench;Tongyi DeepResearch在BrowseComp、HLE(人类最难考试)和GAIA三项上领先,因为它的训练数据专门针对单一答案的事实检索题;OpenResearcher在BrowseComp-Plus上领先,因为这是一个完全离线的基准,与其训练数据分布高度匹配。这种"各有所长"的格局恰好印证了研究团队的核心判断:模型擅长什么,取决于它被什么数据训练。Quest的训练数据覆盖面最广,因此综合能力最为均衡。
更令人意外的是小模型的表现。研究团队还训练了仅做第二阶段有监督微调(不含强化学习)的2B、4B、9B版本。Quest-2B-SFT在HLE上达到了30.3%,在GAIA上达到了72.8%——后者甚至超过了OpenAI的o3模型(70.5%)。这说明Quest的合成数据质量之高,让小模型在事实检索类任务上也能达到令人印象深刻的水准。不过,小模型在需要综合撰写长篇报告的DeepResearch Bench和LiveResearchBench上仍然明显落后于大模型,这提示报告合成能力对模型规模有更高的依赖。
七、走弯路也是收获:四个失败尝试的启示
研究团队在论文中罕见地专门列出了四个"无效尝试",这些经验对后来者颇有参考价值。
第一个失败尝试是在中间训练阶段加入"搜索结果预测"任务——让模型在执行搜索之前,先预测搜索结果的摘要内容。这个想法来自此前有研究表明这类训练能改善搜索类任务。结果发现,单独加入时确实有帮助,但与Quest原有的上下文摘要任务混合后,整体性能反而下降。研究团队推测,两类任务的学习目标存在重叠和冲突——上下文摘要已经包含了对搜索结果的压缩处理,再单独学搜索预测会让模型收到矛盾的学习信号。
第二个失败尝试是在中间训练阶段加入"错误识别"任务——给定一份AI生成的回答和对应的评分树,让模型预测回答中存在哪些问题。想法很直觉:如果模型能自己找到错误,自然就能在生成时避免犯错。然而实验表明这对整体性能几乎没有帮助。原因在于,中间训练阶段的模型无法访问外部网页,只能靠自身知识判断错误;而真正有意义的深度研究错误往往是事实性的、需要查阅外部证据才能发现的,脱离了实际搜索环境,这个任务只能抓到表面的文风问题,无法触及核心。
第三个失败尝试是用直接偏好优化(DPO)来改进开放题的报告质量——利用评分树对两份报告进行比较打分,让模型学习偏好质量更高的那份。在实践中,这种方法训练不稳定,容易过拟合,最终改善幅度极为有限。研究团队的诊断是:长篇报告在多个维度上同时存在差异,评分树给出的分数差异未必反映真正有意义的质量区别,这使得偏好学习信号非常嘈杂。
第四个失败尝试与开放题的评分设计有关。最初团队采用简单的三分制(不满足/部分满足/满足),结果大约50%的情况下所有回答都得到满分,根本区分不了好坏——因为没有参照基准时,评分模型倾向于"宽容"。随后他们换成了三元胜负判断(输/平/赢),然而由于被训练模型早期能力远弱于参考模型,几乎所有回答都被判为"输",奖励信号崩溃为零,强化学习无从进行。这两次失败直接促成了最终版本中连续比值评分方案的设计:同时给候选回答和参考回答打连续分,以比值衡量相对质量,既有区分度,又不会因为早期模型能力较弱就让信号全部归零。
说到底,Quest的研究成果不仅仅是一套好用的开源模型,更是一份可供复现的完整方案。研究团队将模型权重、训练数据、数据合成脚本和训练代码全部开源,这在深度研究智能体这个领域是相当罕见的透明度。对于想要自己训练定制化研究助手的团队而言,这份"食谱"的价值甚至不亚于最终模型本身。
当然,Quest并非没有局限。它在BrowseComp等需要极深搜索的任务上仍与顶级商业系统存在差距,推测原因之一是商业系统背后有更强的基础模型和更大规模的训练数据。此外,Quest目前的工具集不包含视频理解,也不处理非英语网站。更根本的挑战在于,深度研究智能体的训练和推理都依赖大量实时网络访问,基础设施成本和缓存管理的复杂度远高于普通语言模型的训练,这对资源有限的研究团队构成了不小的门槛。
归根结底,Quest证明了一件很有意思的事:培养一个"全才研究助手"并不需要海量的人工标注数据,也不需要神秘的专有技术,只需要一套设计精良的数据合成框架,加上合理的训练流程编排。8000道机器自动生成的题目,配合三阶段的训练方案,就能让一个开源模型的研究能力大幅接近甚至局部超过那些依托庞大商业资源打造的封闭系统。这个结论对整个AI研究社区都是一个鼓励:开源路线在深度研究智能体这个赛道上,远没有达到天花板。有兴趣深入了解技术细节的读者,可以通过arXiv编号2605.24218找到完整论文,研究团队还在Hugging Face平台上公开了模型权重(osunlp/QUEST-35B-RL)和演示应用。
---
Q&A
Q1:Quest和普通的搜索增强AI有什么本质区别?
A:普通的搜索增强AI(RAG系统)通常只做一次检索,找到相关段落后直接生成答案,更像是"带搜索功能的问答机"。Quest属于深度研究智能体,它会进行多轮迭代搜索——搜索→阅读→发现新线索→再搜索→综合所有证据→生成带引用的完整报告,整个过程可能包含上百步操作。Quest还会主动管理自己的"记忆",区分已确认信息、待核实线索和已被推翻的内容,这是普通RAG系统完全不具备的能力。
Q2:评分树(Rubric Tree)和普通的评分标准有什么不同?
A:普通评分标准通常是一个平级的清单,比如"答案正确得1分,有引用加0.5分"。评分树是层级结构,父节点的分数由子节点汇聚而来,而且支持"关键节点失败则父节点直接为零"的逻辑。更重要的是,评分树可以同时处理有标准答案的客观题(叶子节点核查具体事实)和没有标准答案的开放题(叶子节点核查覆盖面、引用质量等维度),而且评分过程完全由程序自动完成,不需要人工阅卷。
Q3:Quest的上下文管理机制和直接用更大上下文窗口的模型相比有什么优势?
A:更大的上下文窗口确实能容纳更多信息,但存在两个根本问题:一是随着上下文变长,模型对"中间"内容的注意力会显著下降,容易遗漏重要信息;二是长上下文的推理成本(时间和算力)呈超线性增长,每一步推理都要处理巨量历史记录。Quest的上下文管理机制是主动压缩:只保留已提炼的结构化知识(确认事实、待办线索、已排除信息),丢弃原始搜索结果和冗长推理过程,让每一步推理都在较短的上下文中进行,同时又不丢失关键信息。这使Quest能以有限的上下文窗口处理比原生窗口长数倍的研究任务。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。