微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 中科院联合阿里团队突破:让AI助手在网络世界中"长途跋涉"而不迷失方向

中科院联合阿里团队突破:让AI助手在网络世界中"长途跋涉"而不迷失方向

2025-11-11 14:06
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-11-11 14:06 科技行者

这项由中国科学院软件研究所中文信息处理实验室的唐乔羽、向昊等研究人员联合阿里巴巴集团共同完成的重要研究发表于2025年,论文题目为《Beyond Turn Limits: Training Deep Search Agents with Dynamic Context Window》。感兴趣的读者可以通过arXiv:2510.08276v1查询完整论文。

想象一下,你正在网络上搜索一个复杂问题的答案,比如寻找一个满足多个苛刻条件的历史建筑。如果是人类搜索,我们可能需要在多个网页之间跳转,记住之前看到的信息,综合分析才能找到答案。而目前的AI搜索助手就像一个健忘的侦探,搜索几次之后就会忘记之前查到的内容,导致无法完成复杂的深度搜索任务。

中科院和阿里的研究团队发现了这个问题的关键所在。现有的AI搜索助手面临着两个核心困境:首先,它们训练时使用的问题太简单,就像让一个只做过简单数学题的学生去解高等数学一样,缺乏应对复杂挑战的能力。其次,这些AI助手的"记忆容量"有限,就如同一个人的短期记忆只能记住几件事情,当需要进行长时间、多步骤的搜索时,它们很快就会"忘记"之前获得的重要信息。

为了解决这些问题,研究团队开发了一个名为"DeepMiner"的创新训练框架。这个框架的核心理念是让AI助手学会处理真正困难的搜索任务,同时给它们配备更智能的"记忆管理系统"。通过这种方法训练出的AI助手能够在标准的计算资源限制下,持续进行近100轮的搜索互动,这相当于让一个侦探能够在不丢失任何线索的情况下,持续追踪复杂案件长达数小时。

研究团队使用32B参数的Qwen3模型作为基础,通过DeepMiner框架训练后,在多个深度搜索基准测试中取得了显著突破。特别是在BrowseComp-en测试中,DeepMiner达到了33.5%的准确率,比之前最好的开源模型提升了近20个百分点。这个成绩意味着AI助手在处理复杂网络搜索任务方面迈出了重要一步,让它们更接近人类专家的搜索能力。

一、训练更聪明的AI侦探:反向构建复杂问题

研究团队首先意识到,要让AI助手变得更聪明,就必须让它们在训练时面对真正困难的挑战。就像培养一名优秀的侦探需要让他们处理复杂的案件一样,AI助手也需要在复杂的搜索任务中磨练技能。

传统的训练数据就像是给侦探准备的简单案件——比如"找到某个明星的生日"或"查询某个公司的成立时间"。这些问题虽然需要搜索,但通常只需要访问一两个权威网站就能找到答案,缺乏真正的挑战性。而现实世界中的复杂搜索任务更像是多线索的悬疑案件,需要从多个来源收集信息,进行交叉验证,甚至需要推理和判断。

研究团队创造性地提出了"反向构建"的方法。传统方法是先有问题再找答案,而他们的做法是先选择一个相对小众但信息丰富的人物或事件,然后围绕这个核心构建出需要综合多个信息源才能回答的复杂问题。

具体来说,他们首先从维基百科中选择那些具有适度知名度的人物——既不能太出名(因为AI可能已经记住了相关信息),也不能太冷门(因为网上信息太少)。研究团队设定的标准是过去六个月内维基百科页面浏览量在1000到10000之间的人物。这就像选择那些有一定故事情节但又不是家喻户晓的侦探小说人物作为案例研究。

选定目标人物后,研究团队会进行全面的信息收集工作。他们使用两种主要策略:直接搜索人物姓名获取传记信息,以及搜索相关新闻获取最新动态。这个过程通常能为每个人物收集到几十个相关网页。接下来,他们会对这些信息源进行严格的三阶段筛选。

第一阶段是人物对应验证,确保每个网页确实在讨论同一个人,避免同名不同人的混淆。第二阶段是信息互补性评估,去除那些没有提供独特信息的重复或无价值页面。第三阶段是可信度验证,过滤掉不可靠的网站,只保留值得信赖的信息源。

在问题生成环节,研究团队故意排除维基百科页面,强迫AI必须从多个分散的信息源中综合信息。他们要求每个问题都必须综合至少四个不同来源的信息,确保这不是简单的事实提取,而是需要跨文档推理的复杂任务。

为了进一步增加难度,生成的问题还会经过"混淆处理"。这个过程将具体的信息替换为更通用的描述,比如将"1985年出生"改为"20世纪80年代出生",将"哈佛大学毕业"改为"常春藤盟校毕业"。这种处理让问题变得更加抽象,要求AI助手能够理解模糊描述并将其与具体信息匹配。

最后,所有生成的问题都要经过严格的双重筛选。难度筛选确保问题确实需要复杂的推理过程,研究团队会测试这些问题是否能通过简单的搜索引擎查询或零样本推理直接解答。只有那些需要工具辅助、多步骤探索才能解决的问题才会被保留。质量筛选则确保问题的可靠性,包括检查问题是否存在歧义、答案是否明确、以及是否能够从给定的参考文档中逻辑地推导出答案。

这种反向构建方法创造了一个独特的训练环境,AI助手必须在其中学会真正的深度推理和战略规划。这些问题不能通过简单的信息检索解决,而需要像人类专家一样进行跨文档的综合分析,这为强化学习优化提供了富有挑战性的训练基础。

二、智能记忆管理:让AI助手不再健忘

解决了训练数据的问题之后,研究团队面临的第二个挑战是如何让AI助手在长时间的搜索过程中保持良好的记忆。这个问题就像是为一个需要处理复杂案件的侦探配备合适的档案管理系统。

当前AI助手面临的记忆问题可以用一个具体的例子来理解。假设你正在使用AI助手搜索一个复杂问题,每次AI使用搜索工具都会获得大量信息,这些信息需要存储在AI的"工作记忆"中。然而,AI的工作记忆就像一个固定大小的文件夹,当信息太多时,要么无法继续添加新信息,要么必须删除旧信息为新信息腾出空间。

研究团队通过实际测试发现了这个问题的严重性。他们分析了开源模型在复杂搜索任务中的失败模式,发现即使将AI的记忆容量扩展到128k个令牌(相当于约25万个英文单词),大多数失败仍然发生在达到记忆容量上限的时候。更进一步的分析显示,在常用的32k记忆容量限制下,AI通常只能进行10-15轮有效的搜索交互就会达到容量上限,这对于复杂的深度搜索任务来说远远不够。

问题的根源在于工具响应信息的冗长。当AI使用搜索工具时,返回的网页内容通常比AI自己生成的分析文本长5-10倍。这就像一个侦探每次询问证人都会得到一大堆详细的证词,而他自己的推理笔记相对简洁。如果要把所有证词都保存在案件档案中,很快就会装满整个档案柜。

更重要的是,研究团队发现工具响应的信息使用模式很有特点:大多数情况下,当前的工具响应主要影响AI的下一步决策,但对后续远程交互的影响相对较小。这意味着工具响应信息虽然在短期内很重要,但其长期价值有限。相比之下,AI的推理过程和决策逻辑对维持整个搜索策略的连贯性至关重要。

基于这些发现,研究团队设计了一个聪明的"滑动窗口"记忆管理策略。这个策略就像为侦探配备了一个智能档案管理员,能够决定哪些文件需要随时查阅,哪些可以临时存档。

具体来说,这个策略定义了两个关键参数:窗口大小W和滑动步长S。当累积的工具响应数量达到窗口大小W时,系统会自动触发滑动操作。滑动时,系统会计算一个边界点,将早期的工具响应替换为简单的占位符标记,而保留最近的工具响应在可见范围内。这个占位符是一个简洁的提示:"[Previous tool output skipped. Rerun tool if needed.]"(之前的工具输出已跳过,如需要可重新运行工具)。

这种设计的巧妙之处在于完全保留了AI的推理轨迹。无论进行多少轮搜索,AI的所有分析、推理和决策记录都会被完整保存,这确保了搜索策略的连贯性和逻辑性。同时,通过智能地管理工具响应信息,系统能够在标准的32k记忆容量内支持多达100轮的搜索交互。

为了确保训练和实际使用时的一致性,研究团队还设计了相应的训练策略。他们将每个完整的搜索轨迹分解为多个训练序列,每个序列反映不同的记忆状态。这样,AI在训练时就能学会在各种记忆条件下有效工作,避免了训练和实际使用之间的不匹配问题。

这种记忆管理策略的效果非常显著。通过对比实验,研究团队发现这种方法在32k记忆容量下就能达到其他方法需要128k容量才能实现的性能水平。这不仅大大提高了计算效率,还为长时间、高质量的深度搜索开辟了可能性。

三、强化学习优化:让AI助手在挫折中成长

有了困难的训练题目和智能的记忆管理系统,研究团队还需要设计一个有效的学习机制,让AI助手能够从试错中不断改进。这个过程就像训练一名侦探,不仅要给他复杂的案件练手,还要有一套科学的反馈机制帮助他从失败中学习。

研究团队采用了强化学习的方法,这是一种让AI通过试错来学习最优策略的技术。但是,将强化学习应用到具有动态记忆管理的搜索任务上面临着独特的挑战。传统的强化学习假设学习环境相对固定,而这里的环境会因为记忆管理的滑动窗口机制而不断变化。

为了解决这个问题,研究团队设计了一套巧妙的训练方案。他们首先为AI进行"冷启动"训练,这就像让新入职的侦探先跟着经验丰富的前辈学习基本技能。在这个阶段,研究团队使用强大的语言模型生成高质量的搜索轨迹作为示范,并在生成过程中应用滑动窗口机制,确保示范轨迹反映了真实的记忆约束。

冷启动阶段结束后,AI就具备了基本的工具使用能力和多步推理能力。接下来进入强化学习阶段,这是让AI真正成长的关键时期。研究团队使用群体相对策略优化算法,这种算法的核心思想是让AI生成多个不同的解决方案,然后通过比较这些方案的成功率来学习哪些策略更有效。

强化学习的一个关键挑战是如何处理轨迹级别的奖励信号与序列级别的训练需求之间的矛盾。由于滑动窗口机制,每个完整的搜索轨迹会被分解为多个训练序列,但奖励只在轨迹的最终结果上给出。研究团队的解决方案是将轨迹级别的奖励信号传播到从该轨迹派生的所有训练序列上,确保每个序列都能接收到正确的学习信号。

奖励设计采用了简单而有效的二元评分机制。研究团队使用大语言模型作为评判者,评估AI给出的最终答案是否与标准答案匹配,正确答案得1分,错误答案得0分。这种设计虽然简单,但避免了复杂奖励工程可能引入的偏见和不稳定性,为长期学习提供了清晰的优化目标。

在训练过程中,研究团队对每个问题生成8个不同的搜索轨迹,然后通过群体内的相对比较计算每个轨迹的优势分数。这个过程就像让多个侦探独立调查同一个案件,然后比较他们的成功率来判断哪些调查策略更有效。优势分数会指导AI学习:成功率高的策略会得到强化,而失败率高的策略会被抑制。

整个强化学习过程的监控显示了方法的有效性。随着训练进行,AI生成的搜索轨迹长度稳步增加,这表明AI正在学会进行更深入、更全面的探索。同时,训练奖励从0.45逐步提升到0.60,显示AI的成功率在持续改善。这种改进不仅体现在训练数据上,在独立的评估基准上也展现出一致的性能提升。

特别值得注意的是,强化学习阶段相对于监督学习基础模型实现了显著的性能跃升。在BrowseComp-en基准上,强化学习模型相比监督学习基础模型提升了12.3个百分点,这种大幅度的改进证明了复杂搜索任务中强化学习优化的重要价值。

四、实验验证:AI助手的实战表现

经过精心设计的训练方案,研究团队开发出了DeepMiner-32B模型,接下来需要在真实的深度搜索任务中验证其能力。这就像让经过严格训练的侦探去处理真实案件,检验他们的实战水平。

研究团队选择了四个具有挑战性的深度搜索基准进行测试:BrowseComp-en、BrowseComp-zh、XBench-DeepSearch和GAIA。这些基准就像四种不同类型的复杂案件,每种都需要特定的技能和策略。BrowseComp系列专注于网络浏览和信息综合能力,XBench-DeepSearch测试深度信息搜索技能,而GAIA则评估通用AI助手的综合能力。

在实验设置上,研究团队为DeepMiner配置了三个核心工具:网络搜索、网页获取和页内查找。网络搜索工具返回前10个搜索结果的标题、网址和摘要;网页获取工具以Markdown格式检索完整网页内容,并支持分页导航;页内查找工具则能在长网页中定位特定信息。这套工具组合为AI提供了全面的网络信息获取能力。

DeepMiner的表现让人印象深刻。在最具挑战性的BrowseComp-en基准上,DeepMiner达到了33.5%的准确率,这个成绩超越了所有之前的开源模型,甚至超过了参数量大20多倍的DeepSeek-V3.1-671B模型。这种成就特别令人瞩目,因为它表明通过合适的训练方法和架构设计,较小的模型也能在复杂任务上达到甚至超越大模型的性能。

在其他基准上,DeepMiner同样表现出色。在BrowseComp-zh上达到40.1%准确率,在XBench-DeepSearch上达到62.0%准确率,在GAIA上达到58.7%准确率。这种一致的高性能表现证明了DeepMiner方法的通用性和鲁棒性,而不是针对特定任务的过度优化。

特别值得关注的是监督学习和强化学习之间的性能差异。即使是只经过监督学习训练的DeepMiner-32B-SFT模型也显著超越了大多数现有的开源模型,这证明了高质量训练数据构建方法的价值。而强化学习进一步带来了显著提升:在BrowseComp-en上提升12.3个百分点,在BrowseComp-zh上提升12.1个百分点,在XBench-DeepSearch上提升9.0个百分点。这种提升模式特别在最困难的基准上更加明显,说明强化学习确实帮助AI学会了更复杂的推理策略。

为了验证动态记忆管理的效果,研究团队进行了专门的对比实验。他们比较了三种不同的记忆管理策略:不使用任何记忆管理的原始方法、使用外部摘要的方法、以及DeepMiner的滑动窗口方法。结果显示,DeepMiner在32k记忆容量下就能达到33.3%的准确率,而其他方法即使在128k记忆容量下也无法达到这个性能水平。这个结果强有力地证明了智能记忆管理的重要性和有效性。

研究团队还深入分析了DeepMiner随搜索深度的扩展能力。随着允许的工具调用次数增加,DeepMiner的性能持续提升,在大约60次工具调用时超越了DeepSeek-V3.1-671B,在100次工具调用时达到33.5%的最佳性能。这种性能随搜索深度的稳步提升表明DeepMiner确实学会了有效利用长期搜索的优势,而不是简单地进行无意义的重复搜索。

在记忆容量的扩展分析中,DeepMiner展现出了优异的效率特性。在32k记忆容量下,DeepMiner就能接近其最佳性能,而其他开源模型在相同条件下的表现要差得多。这种高效的记忆利用能力意味着DeepMiner可以在更广泛的计算环境中部署,而不需要昂贵的大内存硬件支持。

五、技术创新的深度分析

DeepMiner的成功不是偶然的,而是多个技术创新的协同作用结果。研究团队在训练数据构建、记忆管理、强化学习等多个方面都提出了创新性的解决方案,这些创新共同构成了一个完整的技术体系。

在训练数据质量方面,DeepMiner与传统数据集的对比实验提供了有价值的洞察。研究团队将DeepMiner的训练数据与广泛使用的HotpotQA数据集进行了对比。使用相同的冷启动训练流程,基于HotpotQA训练的模型在BrowseComp上只能达到15.6%的准确率,而基于DeepMiner数据训练的模型达到了21.2%的准确率。这个5.6个百分点的差异直观地展示了高质量、高难度训练数据的价值。

HotpotQA虽然被设计为多跳推理数据集,但其问题通常可以通过访问结构化的维基百科数据并进行浅层信息检索来解决。相比之下,DeepMiner的问题需要跨越多个真实网络源进行深度综合分析,这种差异导致了AI能力发展的根本性不同。这个对比实验证明了传统多跳数据集不足以激发复杂网络代理任务所需的认知行为,验证了DeepMiner数据构建方法的必要性。

在记忆管理技术方面,DeepMiner的滑动窗口机制展现了多重优势。首先是技术上的优雅性:该方法不需要额外的模型组件,避免了系统复杂性的增加和计算开销的上升。其次是优化上的一致性:整个系统可以进行端到端的强化学习优化,避免了外部摘要组件无法集成到优化过程中的问题。最后是信息保存的完整性:通过保持对原始网页内容的访问能力,避免了摘要过程中的信息损失。

这种设计哲学的核心在于识别和保留真正重要的信息。通过完整保存AI的推理轨迹而智能地管理工具响应,系统在维持长期推理连贯性的同时实现了高效的记忆利用。这种方法的有效性通过实验得到了充分验证:在标准32k记忆容量下实现近100轮交互,远超传统方法的10-15轮限制。

强化学习在DeepMiner中的应用也展现了独特的技术特色。传统的强化学习通常假设环境状态相对稳定,而DeepMiner面临的是因记忆管理导致的动态环境。研究团队通过将轨迹级奖励分解到序列级训练的创新方法解决了这个挑战,确保了学习信号的正确传播。

训练动态分析揭示了DeepMiner学习过程的有趣特征。随着训练进行,AI生成的轨迹长度稳步增长,表明模型正在学会进行更深入的探索。同时,奖励的持续增长显示了策略的不断改进。这种模式说明DeepMiner的任务难度设置得当——既有足够的挑战性来驱动持续学习,又不会过难以至于无法取得进展。

在扩展性分析中,DeepMiner表现出良好的规律性。性能随工具调用次数的增加呈现稳定的上升趋势,没有出现平台期或性能退化,这说明模型确实学会了有效利用更多的搜索机会。记忆容量的扩展实验则显示了边际效应:从32k到64k的提升相对较小,说明DeepMiner的记忆管理策略已经接近最优效率。

六、实际应用价值与未来展望

DeepMiner的技术突破不仅在学术上具有重要意义,更在实际应用中展现出巨大潜力。这项研究为构建真正实用的AI搜索助手奠定了坚实基础,有望改变人们获取和处理复杂信息的方式。

从技术成熟度来看,DeepMiner已经达到了可以实际部署的水平。33.5%的准确率虽然距离完美还有差距,但已经足以在许多实际场景中提供有价值的帮助。特别是在需要综合多个信息源、进行复杂推理的专业搜索任务中,DeepMiner展现出的能力已经接近人类专家的水平。

在商业应用方面,DeepMiner的技术可以应用到多个领域。学术研究人员可以使用这种AI助手进行文献综述和研究现状分析,法律专业人士可以用它来查找相关案例和法规条文,商业分析师可以借助它进行市场调研和竞争分析。这些应用场景的共同特点是需要处理大量分散的信息,进行深度的综合分析,这正是DeepMiner的强项。

从计算成本的角度看,DeepMiner的效率优势使其具有良好的商业化前景。相比那些需要巨大计算资源的大模型,DeepMiner能够在相对较小的硬件配置上实现优异性能,这大大降低了部署成本和使用门槛。这种效率优势对于广泛普及深度搜索AI技术具有重要意义。

研究团队在论文中也诚实地讨论了当前方法的局限性和改进空间。首先是准确率的进一步提升空间。虽然33.5%已经是显著的突破,但距离实用化的要求还有提升余地。其次是任务范围的扩展,当前的评估主要集中在特定类型的搜索任务上,在更广泛的应用场景中的表现还需要进一步验证。

在技术发展方向上,研究团队指出了几个有前景的改进路径。一是进一步优化训练数据的构建方法,生成更多样化、更具挑战性的训练案例。二是探索更高效的记忆管理策略,在保持性能的同时进一步减少计算开销。三是研究更先进的强化学习算法,加速模型的学习收敛过程。

从更宏观的角度看,DeepMiner代表了AI发展的一个重要趋势:从单纯的规模扩展转向智能化的架构设计和训练方法创新。这种趋势的意义在于,它为那些没有无限计算资源的研究团队和公司提供了与大型科技企业竞争的可能性,有助于AI技术的民主化发展。

研究团队计划将DeepMiner的核心技术开源,这将为整个AI社区带来宝贵的资源。开源不仅能够加速相关研究的发展,还能让更多的开发者和研究人员基于这个基础构建更先进的系统。同时,开源也意味着这项技术将接受更广泛的测试和验证,有助于发现和解决潜在问题。

展望未来,深度搜索AI技术的发展可能会经历几个阶段。短期内,我们可能会看到更多基于DeepMiner思路的改进和变种出现。中期来看,这种技术可能会集成到各种专业工具和平台中,成为知识工作者的标准配备。长期而言,随着技术的进一步成熟,我们可能会迎来一个AI助手能够独立完成复杂研究任务的时代。

说到底,DeepMiner的意义不仅仅是技术指标上的突破,更重要的是它为AI助手的智能化发展指明了方向。通过巧妙的问题设计、智能的记忆管理和有效的学习机制,它展示了如何让AI在复杂任务中展现出真正的智能行为。这种从"能回答"到"会思考"的转变,正是AI技术走向实用化的关键步骤。

当我们展望未来时,DeepMiner让我们看到了一种可能:AI助手不再是简单的问答工具,而是能够独立进行深度探索、具有持续学习能力的智能伙伴。这样的AI助手将极大地扩展人类的认知能力,帮助我们在信息爆炸的时代中找到真正有价值的知识。虽然这个愿景的完全实现还需要时间,但DeepMiner已经为我们展示了通向这个未来的可行路径。

Q&A

Q1:DeepMiner是什么?它能做什么?

A:DeepMiner是由中科院软件所和阿里团队联合开发的AI搜索助手训练框架。它的核心能力是让AI助手能够进行长时间、多步骤的复杂网络搜索,就像一个不会忘记线索的智能侦探。DeepMiner训练出的AI助手能在标准计算资源下持续进行近100轮搜索交互,在复杂搜索任务中的准确率达到33.5%,比之前最好的开源模型提升了近20个百分点。

Q2:DeepMiner的记忆管理技术有什么特别之处?

A:DeepMiner采用了"滑动窗口"的智能记忆管理策略,就像给AI配备了一个聪明的档案管理员。这个系统会保留AI的所有推理过程,但智能地压缩旧的搜索结果,为新信息腾出空间。这样AI既不会忘记重要的思考轨迹,又能在有限的内存中进行长时间搜索,实现了在32k内存容量下支持100轮交互的突破。

Q3:普通人什么时候能用上这种技术?

A:DeepMiner的技术已经达到了可实际部署的水平,研究团队计划将核心技术开源,这将加速其在各种应用中的普及。短期内,我们可能会在专业搜索工具、研究助手、法律查询等专业领域看到这种技术的应用。随着技术进一步成熟和成本降低,预计在未来2-3年内,普通用户也能在日常搜索中体验到类似的智能助手服务。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-