微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 复旦大学团队突破AI工具使用瓶颈:DIVE技术让AI在陌生工具面前不再"水土不服"

复旦大学团队突破AI工具使用瓶颈:DIVE技术让AI在陌生工具面前不再"水土不服"

2026-03-23 14:28
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-03-23 14:28 科技行者

这项由复旦大学与MiniMax公司联合完成的突破性研究发表于2026年3月,论文编号为arXiv:2603.11076v1。研究团队开发了一种名为DIVE的全新技术,专门解决AI智能体在面对不同工具和任务时"水土不服"的问题。

现在的AI智能体就像一个只会用某种特定工具的工匠,当换了新工具或遇到不同类型的任务时,往往表现得手足无措。比如一个AI如果被训练成使用搜索引擎来回答问题,当需要它使用医疗数据库或者金融分析工具时,就可能完全不知道该怎么办。这种"专工具不专用"的问题严重限制了AI在现实世界中的应用。

研究团队发现,问题的核心在于现有的AI训练数据太过单一。就像一个人如果只吃过家乡菜,突然要适应各种不同地方的美食就会很困难。传统的训练方法往往让AI在固定的工具组合上反复练习,虽然在熟悉的环境中表现出色,但一旦环境发生变化就会大打折扣。

DIVE技术的独特之处在于它完全颠覆了传统的训练思路。以往的方法是先设计任务,再验证能否完成,就像先画好图纸再检查能否施工。但DIVE采用的是"先施工再画图纸"的逆向思维——它让AI先在真实的工具环境中进行各种操作,收集这些操作的结果,然后根据这些确实可行的操作来反推设计任务。

一、从固定配方到自由烹饪:DIVE如何重新设计AI训练

传统的AI工具使用训练就像按照固定食谱做菜。研究人员会准备好特定的工具组合,比如搜索引擎加网页浏览器,然后让AI在这个组合上反复练习各种任务。这种方法的问题是,一旦换了新的工具组合,AI就像换了完全不同的厨具,原来的"食谱"就不管用了。

DIVE技术采用了一种全新的"自由烹饪"方法。研究团队首先构建了一个包含373种不同工具的"工具超市",涵盖了通用工具(如搜索、代码执行)和四个专业领域的专门工具:金融、生物学、医学和学术研究。这就像为AI准备了一个装备齐全的现代化厨房,有各种各样的厨具和调料。

接着,DIVE让AI在这个"工具超市"中自由探索,随机选择不同的工具组合进行实际操作。这个过程分为两个关键步骤:证据收集和任务推导。在证据收集阶段,AI会实际使用选定的工具进行各种操作,就像一个厨师在厨房里尝试不同食材和厨具的组合,记录下每一次尝试的结果。

在任务推导阶段,AI会观察自己刚才的操作过程和结果,然后反向思考:"基于我刚才成功完成的这些操作,我可以设计出什么样的任务?"这就像厨师在成功做出一道菜后,回过头来写出这道菜的制作方法。

这种逆向设计的最大优势是确保了任务的可执行性。传统方法中,研究人员可能设计出一个看似合理的任务,但实际执行时发现工具无法完成,就像设计出的食谱在实际操作中发现缺少关键调料。而DIVE的方法保证了每个任务都是从实际成功的操作中推导出来的,天然具有可执行性。

二、多样性胜过数量:为什么"少而精"比"多而杂"更有效

研究团队进行了一系列对比实验,结果令人印象深刻。他们发现,使用多样化工具训练的AI,即使训练数据只有传统方法的四分之一,在面对新任务时的表现仍然远超用大量单一数据训练的AI。

具体来说,研究团队比较了两种训练策略。第一种是"数量优先"策略,使用48000个训练样本,但所有样本都基于固定的搜索和浏览工具组合。第二种是"多样性优先"策略,只使用12000个训练样本,但这些样本涵盖了从1个领域逐步扩展到4个领域的工具。

结果显示,在9个不同的测试基准上,多样性策略平均比数量策略提高了22个百分点。这就像学习驾驶时,在各种不同路况下练习少量时间,比在同一条路上重复练习大量时间更能提高整体驾驶技能。

研究团队进一步分析发现,这种多样性优势来自于AI学会了更丰富的"工具使用模式"。传统训练方法容易让AI养成固化的操作习惯,比如总是先搜索再浏览的机械化流程。而DIVE训练的AI掌握了多种模式:有时只需要检索信息,有时需要检索后进行计算处理,有时甚至可以纯粹依靠计算工具完成任务。

三、真实世界的试金石:DIVE在各种场景下的表现

为了验证DIVE技术的实际效果,研究团队在三个不同层次的测试环境中进行了全面评估。第一层是"同门不同招"测试,使用相同的工具库但不同的具体任务。第二层是"换门不换派"测试,使用通用工具(搜索、浏览、代码执行)处理不同领域的任务。第三层是"完全跨界"测试,使用专门的专业工具处理特定领域任务。

在"同门不同招"测试中,DIVE训练的AI表现稳定,平均准确率达到42.5%,相比基础模型提升了29.5个百分点。这验证了DIVE训练方法的基础有效性。

在"换门不换派"测试中,DIVE表现尤为突出。在GAIA、HLE、BrowseComp等通用深度研究任务中,DIVE的表现分别达到了61.2%、17.8%和16.4%的准确率,大幅超越了专门为这类任务设计的8B参数模型。这就像一个经过综合训练的全科医生,在面对不同科室的基础问题时,往往比只精通单一科室的专科医生表现更好。

最令人印象深刻的是"完全跨界"测试结果。在金融分析任务(FAB)中,DIVE达到了34.0%的准确率;在医疗电子病历任务(MAB)中达到57.3%;在软件工程任务(SWE)中达到18.3%;在零样本工具使用任务(Toolathlon)中达到8.3%。要知道,DIVE并没有专门针对这些特定领域进行训练,这种跨领域迁移能力正是现实世界AI应用最需要的特质。

四、深入机制:DIVE如何培养AI的"工具直觉"

通过对AI学习过程的深入分析,研究团队揭示了DIVE成功的内在机制。他们发现,DIVE不仅让AI掌握了更多类型的工具,更重要的是培养了AI的"工具使用直觉"。

研究团队定义了一套"工具使用模式"分类体系,将AI的操作模式分为检索型、处理型和混合型三大类,每类又根据操作的复杂程度和工具组合方式进一步细分为222种具体模式。传统训练方法通常只能覆盖其中的65种模式,且主要集中在简单的检索型操作。而DIVE训练的AI能够掌握153种不同的模式,覆盖了工具使用模式空间的69%。

更有趣的是,研究团队追踪了AI在强化学习阶段的表现变化。他们发现,在强化学习过程中,AI不仅提高了任务完成的准确率,同时还在不断探索和掌握新的工具使用模式。这说明DIVE培养的不是机械化的工具使用技能,而是一种能够持续学习和适应的"工具直觉"。

在100步强化学习过程中,AI的工具调用图(描述工具之间调用关系的网络结构)和检索-处理拓扑(描述信息获取和处理流程的抽象模式)都在持续增长。这就像一个工匠不仅技艺越来越精湛,同时还在不断发明新的工作方法和技巧组合。

五、实用价值:从实验室到现实应用的桥梁

DIVE技术的价值不仅体现在实验室的测试数据中,更重要的是它为解决现实世界的AI应用难题提供了可行方案。在当今快速发展的数字化时代,新的工具和平台层出不穷,传统的"一工具一训练"模式已经无法跟上变化的步伐。

以医疗AI为例,现在的医疗AI系统往往只能在特定的电子病历系统中工作,一旦医院更换了病历系统,AI就需要重新训练。DIVE技术训练的AI展现出了强大的适应性,在完全未见过的医疗工具环境中依然能够取得57.3%的准确率,这为开发真正通用的医疗AI助手提供了可能。

在金融领域,DIVE训练的AI在处理需要使用专门金融工具的任务时表现同样出色。现代金融分析需要整合来自多个数据源的信息,使用各种分析工具进行处理。DIVE的多工具整合能力使得AI能够像资深金融分析师一样,灵活运用各种工具完成复杂的分析任务。

软件开发是另一个极具挑战性的应用场景。现代软件开发环境包含了编辑器、编译器、调试器、版本控制系统等众多工具,而且这些工具的组合使用方式因项目而异。DIVE训练的AI在SWE-bench测试中的表现证明了它确实掌握了在复杂工具环境中工作的能力。

六、技术突破:三大创新点解析

DIVE技术包含三个关键的技术突破,每一个都解决了传统方法的重要限制。

第一个突破是"逆向任务设计"机制。传统方法是先设计任务再尝试完成,就像先规划路线再出发旅行。但这种方法的问题是,设计的任务可能在实际执行中遇到各种意想不到的障碍。DIVE采用"先探索再总结"的方法,让AI先在工具环境中自由探索,然后根据成功的探索经历来设计任务。这确保了每个任务都是可执行且有实际价值的。

第二个突破是"多维度多样性扩展"策略。DIVE不是简单地增加工具数量,而是从工具类型覆盖度、任务级工具集合变化度、以及工具使用模式丰富度三个维度同时扩展多样性。这就像训练一个全能运动员,不仅要练习不同的运动项目,还要在每个项目中尝试不同的技术组合,同时培养在不同项目间切换的适应能力。

第三个突破是"证据驱动的质量保证"机制。在AI训练中,数据质量比数量更重要,但传统方法很难保证大规模数据的质量。DIVE通过"先执行再总结"的方式,天然保证了训练数据的质量。每个训练样本都对应着一次成功的工具操作序列,这就像每道菜谱都是基于实际成功的烹饪经验,而不是纸上谈兵的理论设计。

七、性能表现:数据背后的故事

研究团队进行了大规模的性能评估,结果令人振奋。在9个不同的评估基准中,DIVE训练的8B参数模型平均比最强的同规模基线模型提升了68%。更令人印象深刻的是,DIVE模型的性能已经接近甚至超越了一些参数量远大于它的前沿模型。

在GAIA测试中,DIVE达到了61.2%的准确率,超过了WebExplorer-8B的50.0%,后者是专门为这类任务设计的专业模型。这就像一个综合性人才在专业测试中击败了专业选手,体现了全面发展的优势。

在Toolathlon这个最具挑战性的零样本测试中,DIVE从基础模型的0.9%提升到8.3%,这个提升幅度看似不大,但考虑到这是一个全新环境下的零样本任务,这个结果已经非常令人鼓舞。这相当于一个从未见过某种工具的人,仅凭对工具使用原理的理解,就能在短时间内掌握新工具的基本使用方法。

特别值得注意的是,DIVE在处理需要多步骤推理的复杂任务时表现优异。在FinSearchComp全球金融搜索任务中,DIVE达到了67.3%的准确率,显著超过了其他方法。这类任务需要AI不仅能使用工具获取信息,还要能将多个信息源的数据进行整合分析,这正是现实应用中最需要的能力。

八、实际案例:DIVE在行动中的表现

为了更好地理解DIVE的实际能力,研究团队提供了几个具体的应用案例。这些案例展示了DIVE如何在不同领域中灵活运用各种工具完成复杂任务。

在学术研究场景中,DIVE成功完成了一个跨期刊研究者追踪任务。任务要求AI找到一位斯坦福大学计算机科学研究者,这位研究者有特定的ORCID标识符,发表了260篇被引用超过10次的论文,最高被引论文发表于1981年,总引用数在65000到66000之间,并且在2014到2023年间持续在斯坦福工作。AI需要在这位研究者2020到2023年的论文中找到一篇发表在特定期刊且被引用超过40次的论文标题。这个任务需要AI协调使用9种不同的学术工具,进行50次工具调用,最终成功找到了答案。

在生物学研究中,DIVE完成了一个复杂的酶表征任务。任务涉及寻找一个耐热水解酶,这个酶必须满足六个相互关联的条件:来源于含有"fusca"的细菌种名、具有特定的酶活性、与已知蛋白有高度序列相似性、UniProt条目在特定时间更新、具有特定的氨基酸数量、基因有特定的同义词。AI使用了6种不同的生物学工具,进行47次调用,成功找到了满足所有条件的酶的UniProt编号。

在金融分析场景中,DIVE处理了一个涉及多市场投资组合分析的复杂任务。任务要求AI在一个基金的持仓中找到符合特定条件的医疗诊断股票,然后在另一个交易数据集中找到符合条件的半导体股票,最后验证这两只股票是否在同一交易所上市并满足其他条件。这个任务需要AI使用8种不同的金融工具,展现了其在处理多数据源整合任务中的能力。

九、技术细节:DIVE的实现机制

DIVE技术的实现包含三个核心组件:多样性资源准备、证据驱动任务合成、和智能体训练。每个组件都经过精心设计,确保整个系统的有效性和可扩展性。

在多样性资源准备阶段,研究团队构建了三个相互独立的资源池。工具池包含373个经过验证的工具,涵盖5个不同领域,每个工具都经过了正确性、并发安全性和响应一致性的严格测试。种子池包含了来自Wikipedia、PubMed、NCBI和全球股票交易所的约20000个实体概念,用作任务生成的语义锚点。样例池收集了来自18个不同基准测试的3000个查询样例,提供了多样化的任务形式先验知识。

证据驱动任务合成是DIVE的核心创新。每个合成周期开始时,系统会随机采样一个配置组合,包括一个种子概念、一个15-50个工具的子集、和3-5个查询样例。接着进入证据收集阶段,AI智能体在给定的工具集下进行多步骤操作,每次操作都会产生可验证的输出。然后在任务推导阶段,另一个AI模型观察累积的证据,设计出严格基于这些证据的查询-答案对。这个过程会迭代3次,每次迭代都会增加证据的复杂性和任务的难度。

在智能体训练阶段,DIVE采用了两阶段训练策略。首先是监督微调阶段,使用GPT-OSS-120B作为教师模型生成高质量的任务解决轨迹,从114k个任务中筛选出48k个轨迹进行训练。然后是强化学习阶段,从38k个任务中选择3.2k个处于"学习前沿"的任务(成功率在1-5次的范围内),使用GRPO算法进行优化。

十、扩展性分析:DIVE的未来潜力

DIVE技术不仅在当前测试中表现优异,更重要的是它展现出了强大的扩展潜力。研究团队的分析显示,DIVE的性能改进与多样性增长之间存在稳定的正向关系,这意味着随着更多工具和领域的加入,DIVE的能力可能会持续提升。

从工具池扩展的角度看,当前的373个工具只是冰山一角。现实世界中存在着数以万计的不同工具和API,DIVE的框架设计使得新工具的加入变得相对简单。只需要通过验证流程确保工具的可靠性,然后让AI在包含新工具的环境中进行探索学习即可。

从领域扩展的角度看,DIVE当前覆盖的四个专业领域(金融、生物、医学、学术)可以进一步扩展到法律、教育、制造业、农业等更多领域。每个新领域的加入都会为AI带来新的工具使用模式和问题解决策略,进一步提升其通用性。

强化学习的引入为DIVE提供了持续学习的能力。研究显示,在强化学习过程中,AI不仅提高了任务完成的准确率,还在不断发现新的工具使用模式。这种"学习如何学习"的能力意味着DIVE训练的AI可能具备在部署后继续适应新环境的潜力。

结论

说到底,DIVE技术解决的是一个现实世界中的关键问题:如何让AI真正适应多变的工具环境。传统的AI就像一个只会使用特定工具的专业工匠,技艺精湛但适应性有限。而DIVE培养的是一种"工具使用直觉",让AI能够像经验丰富的多面手一样,快速适应新的工具和环境。

这项技术的意义远超出了学术研究的范畴。在我们日常生活中,工具和应用程序不断更新换代,一个真正有用的AI助手必须具备快速学习使用新工具的能力。DIVE为实现这样的通用AI助手提供了可行的技术路径。

更重要的是,DIVE的成功证明了"多样性胜过数量"的训练哲学。在AI训练中,与其用海量的单一类型数据进行训练,不如用相对较少但高度多样化的数据进行训练。这个发现可能会影响整个AI训练领域的发展方向。

当然,DIVE技术仍有改进空间。比如如何进一步提高在完全陌生环境中的适应速度,如何处理更加复杂的工具依赖关系,如何在保持通用性的同时提升专业领域的性能等。但作为一个开创性的技术框架,DIVE已经为构建真正通用的AI工具使用能力奠定了坚实基础。

对于普通用户来说,DIVE技术的普及意味着未来的AI助手将更加实用和可靠。你不再需要担心AI助手在面对新软件或新服务时变得"手足无措",它们将能够像人类一样快速学习和适应新的工具环境。这将让AI真正成为我们日常生活和工作中不可或缺的智能伙伴。

有兴趣深入了解DIVE技术细节的读者可以通过arXiv:2603.11076v1查询完整论文,其中包含了详细的技术实现和实验数据。

Q&A

Q1:DIVE技术跟传统AI训练方法有什么本质区别?

A:传统AI训练是"先设计任务再验证能否完成",就像先画图纸再施工,可能出现设计的任务实际无法执行的问题。DIVE采用"先操作再设计任务"的逆向思维,让AI先在真实工具环境中探索操作,然后根据成功的操作来反推设计任务,确保每个任务都是可执行的。

Q2:为什么DIVE用更少的训练数据反而能达到更好的效果?

A:关键在于数据的多样性。DIVE使用12000个涵盖多种工具的训练样本,比传统方法用48000个单一工具类型样本效果更好。就像学驾驶时在各种路况下少量练习,比在同一条路上大量重复练习更能提高整体驾驶技能。多样性训练让AI掌握了更丰富的工具使用模式。

Q3:DIVE技术在现实应用中能解决什么实际问题?

A:DIVE可以让AI快速适应新的工具环境,不需要重新训练。比如医院换了新的电子病历系统,传统AI需要重新训练,而DIVE训练的AI可以快速适应。在软件开发、金融分析、医疗诊断等需要使用多种专业工具的场景中,DIVE让AI具备了像人类专家一样灵活使用各种工具的能力。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-