微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

复旦大学团队突破AI工具使用瓶颈：DIVE技术让AI在陌生工具面前不再"水土不服"

人工智能工具使用多样性训练

复旦大学团队突破AI工具使用瓶颈：DIVE技术让AI在陌生工具面前不再"水土不服"

作者：科技行者

2026-03-23 14:28

分享至：

复旦大学联合MiniMax开发的DIVE技术突破了AI工具使用的适应性瓶颈。通过"先操作再设计任务"的逆向训练方法，DIVE让AI掌握373种工具的灵活使用，在9个测试基准上平均提升22分，仅用四分之一数据就超越传统大数据训练效果。该技术为构建真正通用的AI工具使用能力奠定基础，有望让未来AI助手快速适应各种新工具环境。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-03-23 14:28 • 科技行者

这项由复旦大学与MiniMax公司联合完成的突破性研究发表于2026年3月，论文编号为arXiv:2603.11076v1。研究团队开发了一种名为DIVE的全新技术，专门解决AI智能体在面对不同工具和任务时"水土不服"的问题。

现在的AI智能体就像一个只会用某种特定工具的工匠，当换了新工具或遇到不同类型的任务时，往往表现得手足无措。比如一个AI如果被训练成使用搜索引擎来回答问题，当需要它使用医疗数据库或者金融分析工具时，就可能完全不知道该怎么办。这种"专工具不专用"的问题严重限制了AI在现实世界中的应用。

研究团队发现，问题的核心在于现有的AI训练数据太过单一。就像一个人如果只吃过家乡菜，突然要适应各种不同地方的美食就会很困难。传统的训练方法往往让AI在固定的工具组合上反复练习，虽然在熟悉的环境中表现出色，但一旦环境发生变化就会大打折扣。

DIVE技术的独特之处在于它完全颠覆了传统的训练思路。以往的方法是先设计任务，再验证能否完成，就像先画好图纸再检查能否施工。但DIVE采用的是"先施工再画图纸"的逆向思维——它让AI先在真实的工具环境中进行各种操作，收集这些操作的结果，然后根据这些确实可行的操作来反推设计任务。

一、从固定配方到自由烹饪：DIVE如何重新设计AI训练

传统的AI工具使用训练就像按照固定食谱做菜。研究人员会准备好特定的工具组合，比如搜索引擎加网页浏览器，然后让AI在这个组合上反复练习各种任务。这种方法的问题是，一旦换了新的工具组合，AI就像换了完全不同的厨具，原来的"食谱"就不管用了。

DIVE技术采用了一种全新的"自由烹饪"方法。研究团队首先构建了一个包含373种不同工具的"工具超市"，涵盖了通用工具（如搜索、代码执行）和四个专业领域的专门工具：金融、生物学、医学和学术研究。这就像为AI准备了一个装备齐全的现代化厨房，有各种各样的厨具和调料。

接着，DIVE让AI在这个"工具超市"中自由探索，随机选择不同的工具组合进行实际操作。这个过程分为两个关键步骤：证据收集和任务推导。在证据收集阶段，AI会实际使用选定的工具进行各种操作，就像一个厨师在厨房里尝试不同食材和厨具的组合，记录下每一次尝试的结果。

在任务推导阶段，AI会观察自己刚才的操作过程和结果，然后反向思考："基于我刚才成功完成的这些操作，我可以设计出什么样的任务？"这就像厨师在成功做出一道菜后，回过头来写出这道菜的制作方法。

这种逆向设计的最大优势是确保了任务的可执行性。传统方法中，研究人员可能设计出一个看似合理的任务，但实际执行时发现工具无法完成，就像设计出的食谱在实际操作中发现缺少关键调料。而DIVE的方法保证了每个任务都是从实际成功的操作中推导出来的，天然具有可执行性。

二、多样性胜过数量：为什么"少而精"比"多而杂"更有效

研究团队进行了一系列对比实验，结果令人印象深刻。他们发现，使用多样化工具训练的AI，即使训练数据只有传统方法的四分之一，在面对新任务时的表现仍然远超用大量单一数据训练的AI。

具体来说，研究团队比较了两种训练策略。第一种是"数量优先"策略，使用48000个训练样本，但所有样本都基于固定的搜索和浏览工具组合。第二种是"多样性优先"策略，只使用12000个训练样本，但这些样本涵盖了从1个领域逐步扩展到4个领域的工具。

结果显示，在9个不同的测试基准上，多样性策略平均比数量策略提高了22个百分点。这就像学习驾驶时，在各种不同路况下练习少量时间，比在同一条路上重复练习大量时间更能提高整体驾驶技能。

研究团队进一步分析发现，这种多样性优势来自于AI学会了更丰富的"工具使用模式"。传统训练方法容易让AI养成固化的操作习惯，比如总是先搜索再浏览的机械化流程。而DIVE训练的AI掌握了多种模式：有时只需要检索信息，有时需要检索后进行计算处理，有时甚至可以纯粹依靠计算工具完成任务。

三、真实世界的试金石：DIVE在各种场景下的表现

为了验证DIVE技术的实际效果，研究团队在三个不同层次的测试环境中进行了全面评估。第一层是"同门不同招"测试，使用相同的工具库但不同的具体任务。第二层是"换门不换派"测试，使用通用工具（搜索、浏览、代码执行）处理不同领域的任务。第三层是"完全跨界"测试，使用专门的专业工具处理特定领域任务。

在"同门不同招"测试中，DIVE训练的AI表现稳定，平均准确率达到42.5%，相比基础模型提升了29.5个百分点。这验证了DIVE训练方法的基础有效性。

在"换门不换派"测试中，DIVE表现尤为突出。在GAIA、HLE、BrowseComp等通用深度研究任务中，DIVE的表现分别达到了61.2%、17.8%和16.4%的准确率，大幅超越了专门为这类任务设计的8B参数模型。这就像一个经过综合训练的全科医生，在面对不同科室的基础问题时，往往比只精通单一科室的专科医生表现更好。

最令人印象深刻的是"完全跨界"测试结果。在金融分析任务（FAB）中，DIVE达到了34.0%的准确率；在医疗电子病历任务（MAB）中达到57.3%；在软件工程任务（SWE）中达到18.3%；在零样本工具使用任务（Toolathlon）中达到8.3%。要知道，DIVE并没有专门针对这些特定领域进行训练，这种跨领域迁移能力正是现实世界AI应用最需要的特质。

四、深入机制：DIVE如何培养AI的"工具直觉"

通过对AI学习过程的深入分析，研究团队揭示了DIVE成功的内在机制。他们发现，DIVE不仅让AI掌握了更多类型的工具，更重要的是培养了AI的"工具使用直觉"。

研究团队定义了一套"工具使用模式"分类体系，将AI的操作模式分为检索型、处理型和混合型三大类，每类又根据操作的复杂程度和工具组合方式进一步细分为222种具体模式。传统训练方法通常只能覆盖其中的65种模式，且主要集中在简单的检索型操作。而DIVE训练的AI能够掌握153种不同的模式，覆盖了工具使用模式空间的69%。

更有趣的是，研究团队追踪了AI在强化学习阶段的表现变化。他们发现，在强化学习过程中，AI不仅提高了任务完成的准确率，同时还在不断探索和掌握新的工具使用模式。这说明DIVE培养的不是机械化的工具使用技能，而是一种能够持续学习和适应的"工具直觉"。

在100步强化学习过程中，AI的工具调用图（描述工具之间调用关系的网络结构）和检索-处理拓扑（描述信息获取和处理流程的抽象模式）都在持续增长。这就像一个工匠不仅技艺越来越精湛，同时还在不断发明新的工作方法和技巧组合。

五、实用价值：从实验室到现实应用的桥梁

DIVE技术的价值不仅体现在实验室的测试数据中，更重要的是它为解决现实世界的AI应用难题提供了可行方案。在当今快速发展的数字化时代，新的工具和平台层出不穷，传统的"一工具一训练"模式已经无法跟上变化的步伐。

以医疗AI为例，现在的医疗AI系统往往只能在特定的电子病历系统中工作，一旦医院更换了病历系统，AI就需要重新训练。DIVE技术训练的AI展现出了强大的适应性，在完全未见过的医疗工具环境中依然能够取得57.3%的准确率，这为开发真正通用的医疗AI助手提供了可能。

在金融领域，DIVE训练的AI在处理需要使用专门金融工具的任务时表现同样出色。现代金融分析需要整合来自多个数据源的信息，使用各种分析工具进行处理。DIVE的多工具整合能力使得AI能够像资深金融分析师一样，灵活运用各种工具完成复杂的分析任务。

软件开发是另一个极具挑战性的应用场景。现代软件开发环境包含了编辑器、编译器、调试器、版本控制系统等众多工具，而且这些工具的组合使用方式因项目而异。DIVE训练的AI在SWE-bench测试中的表现证明了它确实掌握了在复杂工具环境中工作的能力。

六、技术突破：三大创新点解析

DIVE技术包含三个关键的技术突破，每一个都解决了传统方法的重要限制。

第一个突破是"逆向任务设计"机制。传统方法是先设计任务再尝试完成，就像先规划路线再出发旅行。但这种方法的问题是，设计的任务可能在实际执行中遇到各种意想不到的障碍。DIVE采用"先探索再总结"的方法，让AI先在工具环境中自由探索，然后根据成功的探索经历来设计任务。这确保了每个任务都是可执行且有实际价值的。

第二个突破是"多维度多样性扩展"策略。DIVE不是简单地增加工具数量，而是从工具类型覆盖度、任务级工具集合变化度、以及工具使用模式丰富度三个维度同时扩展多样性。这就像训练一个全能运动员，不仅要练习不同的运动项目，还要在每个项目中尝试不同的技术组合，同时培养在不同项目间切换的适应能力。

第三个突破是"证据驱动的质量保证"机制。在AI训练中，数据质量比数量更重要，但传统方法很难保证大规模数据的质量。DIVE通过"先执行再总结"的方式，天然保证了训练数据的质量。每个训练样本都对应着一次成功的工具操作序列，这就像每道菜谱都是基于实际成功的烹饪经验，而不是纸上谈兵的理论设计。

七、性能表现：数据背后的故事

研究团队进行了大规模的性能评估，结果令人振奋。在9个不同的评估基准中，DIVE训练的8B参数模型平均比最强的同规模基线模型提升了68%。更令人印象深刻的是，DIVE模型的性能已经接近甚至超越了一些参数量远大于它的前沿模型。

在GAIA测试中，DIVE达到了61.2%的准确率，超过了WebExplorer-8B的50.0%，后者是专门为这类任务设计的专业模型。这就像一个综合性人才在专业测试中击败了专业选手，体现了全面发展的优势。

在Toolathlon这个最具挑战性的零样本测试中，DIVE从基础模型的0.9%提升到8.3%，这个提升幅度看似不大，但考虑到这是一个全新环境下的零样本任务，这个结果已经非常令人鼓舞。这相当于一个从未见过某种工具的人，仅凭对工具使用原理的理解，就能在短时间内掌握新工具的基本使用方法。

特别值得注意的是，DIVE在处理需要多步骤推理的复杂任务时表现优异。在FinSearchComp全球金融搜索任务中，DIVE达到了67.3%的准确率，显著超过了其他方法。这类任务需要AI不仅能使用工具获取信息，还要能将多个信息源的数据进行整合分析，这正是现实应用中最需要的能力。

八、实际案例：DIVE在行动中的表现

为了更好地理解DIVE的实际能力，研究团队提供了几个具体的应用案例。这些案例展示了DIVE如何在不同领域中灵活运用各种工具完成复杂任务。

在学术研究场景中，DIVE成功完成了一个跨期刊研究者追踪任务。任务要求AI找到一位斯坦福大学计算机科学研究者，这位研究者有特定的ORCID标识符，发表了260篇被引用超过10次的论文，最高被引论文发表于1981年，总引用数在65000到66000之间，并且在2014到2023年间持续在斯坦福工作。AI需要在这位研究者2020到2023年的论文中找到一篇发表在特定期刊且被引用超过40次的论文标题。这个任务需要AI协调使用9种不同的学术工具，进行50次工具调用，最终成功找到了答案。

在生物学研究中，DIVE完成了一个复杂的酶表征任务。任务涉及寻找一个耐热水解酶，这个酶必须满足六个相互关联的条件：来源于含有"fusca"的细菌种名、具有特定的酶活性、与已知蛋白有高度序列相似性、UniProt条目在特定时间更新、具有特定的氨基酸数量、基因有特定的同义词。AI使用了6种不同的生物学工具，进行47次调用，成功找到了满足所有条件的酶的UniProt编号。

在金融分析场景中，DIVE处理了一个涉及多市场投资组合分析的复杂任务。任务要求AI在一个基金的持仓中找到符合特定条件的医疗诊断股票，然后在另一个交易数据集中找到符合条件的半导体股票，最后验证这两只股票是否在同一交易所上市并满足其他条件。这个任务需要AI使用8种不同的金融工具，展现了其在处理多数据源整合任务中的能力。

九、技术细节：DIVE的实现机制

DIVE技术的实现包含三个核心组件：多样性资源准备、证据驱动任务合成、和智能体训练。每个组件都经过精心设计，确保整个系统的有效性和可扩展性。

在多样性资源准备阶段，研究团队构建了三个相互独立的资源池。工具池包含373个经过验证的工具，涵盖5个不同领域，每个工具都经过了正确性、并发安全性和响应一致性的严格测试。种子池包含了来自Wikipedia、PubMed、NCBI和全球股票交易所的约20000个实体概念，用作任务生成的语义锚点。样例池收集了来自18个不同基准测试的3000个查询样例，提供了多样化的任务形式先验知识。

证据驱动任务合成是DIVE的核心创新。每个合成周期开始时，系统会随机采样一个配置组合，包括一个种子概念、一个15-50个工具的子集、和3-5个查询样例。接着进入证据收集阶段，AI智能体在给定的工具集下进行多步骤操作，每次操作都会产生可验证的输出。然后在任务推导阶段，另一个AI模型观察累积的证据，设计出严格基于这些证据的查询-答案对。这个过程会迭代3次，每次迭代都会增加证据的复杂性和任务的难度。

在智能体训练阶段，DIVE采用了两阶段训练策略。首先是监督微调阶段，使用GPT-OSS-120B作为教师模型生成高质量的任务解决轨迹，从114k个任务中筛选出48k个轨迹进行训练。然后是强化学习阶段，从38k个任务中选择3.2k个处于"学习前沿"的任务（成功率在1-5次的范围内），使用GRPO算法进行优化。

十、扩展性分析：DIVE的未来潜力

DIVE技术不仅在当前测试中表现优异，更重要的是它展现出了强大的扩展潜力。研究团队的分析显示，DIVE的性能改进与多样性增长之间存在稳定的正向关系，这意味着随着更多工具和领域的加入，DIVE的能力可能会持续提升。

从工具池扩展的角度看，当前的373个工具只是冰山一角。现实世界中存在着数以万计的不同工具和API，DIVE的框架设计使得新工具的加入变得相对简单。只需要通过验证流程确保工具的可靠性，然后让AI在包含新工具的环境中进行探索学习即可。

从领域扩展的角度看，DIVE当前覆盖的四个专业领域（金融、生物、医学、学术）可以进一步扩展到法律、教育、制造业、农业等更多领域。每个新领域的加入都会为AI带来新的工具使用模式和问题解决策略，进一步提升其通用性。

强化学习的引入为DIVE提供了持续学习的能力。研究显示，在强化学习过程中，AI不仅提高了任务完成的准确率，还在不断发现新的工具使用模式。这种"学习如何学习"的能力意味着DIVE训练的AI可能具备在部署后继续适应新环境的潜力。

结论

说到底，DIVE技术解决的是一个现实世界中的关键问题：如何让AI真正适应多变的工具环境。传统的AI就像一个只会使用特定工具的专业工匠，技艺精湛但适应性有限。而DIVE培养的是一种"工具使用直觉"，让AI能够像经验丰富的多面手一样，快速适应新的工具和环境。

这项技术的意义远超出了学术研究的范畴。在我们日常生活中，工具和应用程序不断更新换代，一个真正有用的AI助手必须具备快速学习使用新工具的能力。DIVE为实现这样的通用AI助手提供了可行的技术路径。

更重要的是，DIVE的成功证明了"多样性胜过数量"的训练哲学。在AI训练中，与其用海量的单一类型数据进行训练，不如用相对较少但高度多样化的数据进行训练。这个发现可能会影响整个AI训练领域的发展方向。

当然，DIVE技术仍有改进空间。比如如何进一步提高在完全陌生环境中的适应速度，如何处理更加复杂的工具依赖关系，如何在保持通用性的同时提升专业领域的性能等。但作为一个开创性的技术框架，DIVE已经为构建真正通用的AI工具使用能力奠定了坚实基础。

对于普通用户来说，DIVE技术的普及意味着未来的AI助手将更加实用和可靠。你不再需要担心AI助手在面对新软件或新服务时变得"手足无措"，它们将能够像人类一样快速学习和适应新的工具环境。这将让AI真正成为我们日常生活和工作中不可或缺的智能伙伴。

有兴趣深入了解DIVE技术细节的读者可以通过arXiv:2603.11076v1查询完整论文，其中包含了详细的技术实现和实验数据。