微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 中国科学技术大学团队揭示:当AI同时处理多个任务并遭遇工具延迟,它究竟有多"慌乱"?

中国科学技术大学团队揭示:当AI同时处理多个任务并遭遇工具延迟,它究竟有多"慌乱"?

2026-06-03 11:15
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-06-03 11:15 科技行者

这项由中国科学技术大学主导、多伦多大学参与合作的研究,以预印本形式发布于2026年5月28日,arXiv编号为2605.27995。感兴趣的读者可通过该编号在arXiv平台上检索完整论文。

**研究概要**

每天,你的手机里可能同时运行着十几个应用程序。你在用导航的同时,音乐还在播放,微信消息也在后台等着回复。你早已习惯了这种"多线程"的生活节奏。然而,对于正在飞速发展的AI智能助手来说,类似的"同时处理多个任务"却是一道至今没有被认真检验过的难题——尤其是当这些任务涉及调用外部工具,而工具的响应结果还没有立刻返回的时候。

这正是这项研究所关注的核心问题。研究团队发现,现有的AI评测体系几乎都只考察"单一任务、工具立即响应"的理想情况,完全忽略了现实世界中的一个关键变量:工具响应需要时间。在真实环境中,一个AI助手发出一个查询请求后,往往需要等待零点几秒甚至更长时间才能拿到结果。在这段等待时间里,它应该傻等着,还是赶紧去推进其他任务?

研究团队将这种能力命名为"异步工具调用",并专门构建了一套完整的评测基准,命名为AsyncTool。这是据研究团队所知,首个同时考察延迟工具反馈、并发多任务执行、多步骤函数调用以及依赖关系感知任务协调能力的评测框架。通过对19个主流AI模型的系统测试,研究团队发现:延迟的工具响应对当前的AI助手来说是一个非常显著的挑战,几乎所有模型在遇到这种情况时都会出现明显的性能下滑。

---

**一、为什么"等待"会成为一个大问题**

考虑这样一个场景:你是一位餐厅服务员,同时照顾三桌客人。第一桌的客人点了一道需要25分钟才能做好的红烧肉;第二桌刚坐下来还没看菜单;第三桌等着结账。一个经验丰富的服务员会在等待红烧肉的过程中,先去给第二桌递菜单,再帮第三桌结账,而不是站在厨房门口一直等到红烧肉出锅。

AI助手在调用外部工具时,面临的正是同样的处境。所谓"外部工具",可以是天气查询接口、股票信息获取系统、文件操作命令、社交媒体API等各种各样的功能模块。当AI发出一个工具调用请求后,结果不会瞬间返回。这段等待期,如果能被用来推进其他独立任务,整体效率就会大幅提升;如果AI只是傻等着,那就是在浪费时间。

然而,现有的绝大多数AI评测框架根本没有考虑过这个问题。它们通常假设工具调用是"即时响应"的,而且一次只处理一个任务。这种理想化的测试条件与真实世界的实际使用场景之间,存在着相当大的落差。

研究团队识别出了三个具体的空白地带。第一,现有研究几乎没有评估AI在异步场景下同时完成多个任务的能力,绝大多数工作都局限于单任务、工具即时响应的设置。第二,现有的异步规划基准测试并不在真正的交互式环境中运行,无法模拟真实工具调用中的实时反馈。第三,针对延迟和乱序工具反馈的评测指标和标准协议严重缺乏,传统的时间延迟基准也无法直接迁移到需要工具调用的智能体任务上。

AsyncTool的出现,正是为了填补这三个空白。

---

**二、AsyncTool是怎么运作的**

要理解AsyncTool的设计逻辑,可以把整个评测过程想象成一场"空中交通管制模拟训练"。在这个训练中,AI扮演的角色是一位管制员,而不是一位普通旅客。管制员的工作是同时协调多架飞机的起降——每架飞机有自己的飞行阶段,前一个阶段完成才能进入下一个阶段,而且每次发出指令后都要等待飞行员的回应。在等待某架飞机确认的时候,管制员不能停下来发呆,而要继续处理其他飞机的事务。

AsyncTool的运行机制与此高度相似。AI助手会同时收到多个任务,每个任务内部的操作步骤有严格的先后依赖关系,但不同任务之间可以并行推进。每次AI发出一个工具调用请求,系统不会立刻返回结果,而是告知AI"该工具正在执行中"。在这个等待期间,AI可以选择切换到另一个任务继续操作;当工具结果最终返回时,AI需要能够正确识别这是哪个任务的结果,并在合适的时机继续推进那个任务。

一个具体的例子可以帮助理解这个过程。假设AI同时收到两个任务:任务一是"查询Alpha Tech公司的股票代码,然后查询其当前股价,最后购买20股";任务二是"获取用户所有支持工单,找到标题为'密码重置失败'的那条,将其优先级调整为3"。这两个任务相互独立,但任务一内部有严格的顺序:必须先拿到股票代码,才能查询股价,才能执行购买。

AI的正确做法是:先发起任务一中查询股票代码的请求,在等待结果的期间,立刻转向任务二,发起获取工单列表的请求;当任务一的股票代码结果返回后,继续推进任务一的下一步;同时在任务二的结果返回后,找到目标工单并更新优先级。两个任务交替推进,最终全部完成。

这个过程对AI来说并不简单。它需要始终记得每个任务进行到了哪一步,需要知道哪些步骤必须等待上一步的结果才能执行,还需要判断当前哪个任务最适合推进。这种综合能力,就是AsyncTool所要测量的。

---

**三、数据是怎么来的:一套精心设计的"菜谱制作流程"**

构建AsyncTool的数据集,就像是一位主厨在开发一套全新菜谱。这个过程分成四个主要阶段,每个阶段都有严格的质量控制。

整个流程从原材料的采集开始。研究团队没有从零开始造数据,而是借鉴了已有的两个高质量工具调用基准测试——NESTFUL和BFCLv3。这两个基准已经积累了来自真实场景的工具API、任务描述和执行路径,是现成的优质原料。经过自动化验证和分类整理,研究团队从中提取了12类工具共358个任务,形成原始数据集。这12类工具涵盖了数据管理、文件系统操作、数据生成、消息API、数字运算、社交连接、字符串处理、票务购买、交易机器人、旅行规划、数据格式转换和机器操作等各种应用场景。

原材料有了,接下来是粗加工环节。研究团队使用Google的Gemini 2.5 Pro模型,对每个任务进行重构:根据原始任务描述、多步骤执行轨迹和工具集合,让模型重新生成清晰、有明确步骤依赖关系的任务描述和函数调用轨迹。这一步的目的是确保每个任务描述足够明确,每个步骤之间的先后依赖关系足够清晰。不过,自动生成难免有误,研究团队对这些重构结果进行了人工检查和纠正,发现并修正了函数参数错误、任务描述与执行顺序不匹配等问题。

粗加工完成后,进入精细标注环节。研究团队设计了一套细致的人工审核流程,要求标注员逐一验证每个任务的执行轨迹是否正确,检查函数名和参数是否符合工具规范,确认步骤之间的依赖关系是否被正确遵守。在这个过程中,标注员发现并纠正了三类常见错误:第一类是对初始任务条件的误解,比如在文件系统任务中反复执行进入当前目录的操作;第二类是依赖关系违反,比如跳过了某个必须先执行的前置函数;第三类是对工具功能的误解,比如以工具不支持的格式传入参数。此外,标注员还负责消除任务描述中的歧义,将模糊表述替换为包含具体地点、时间、关键参数的精确表达。经过多轮验证,最终形成包含358个高质量实例的单任务数据集。

最后一步是将单任务数据组合成多任务场景。研究团队考虑了两个维度:任务数量(双任务或三任务)和任务类型(同类任务组合或跨类任务组合)。这两个维度的交叉,产生了四种组合配置。由于穷举所有可能的组合会产生海量数据,研究团队采用加权随机抽样的方式构建了规模适中的子集,最终形成包含712个实例的多任务数据集。这712个实例中,同类双任务120个(占16.85%),跨类双任务132个(占18.54%),同类三任务240个(占33.71%),跨类三任务220个(占30.90%)。三任务组合占据了超过六成的比重,这是研究团队有意为之——他们希望评测中包含足够多的高难度场景。

---

**四、评分是怎么算的:三层楼的质检体系**

AsyncTool的评分体系可以类比为一栋三层楼的建筑质检系统,从底层基础到顶层整体,层层递进。

最底层是"步骤级别"的评估。这一层检查的是AI每一次工具调用的质量,包括三个方面:调用格式是否正确、选用的工具是否对路、传入的参数是否准确。这就像检查每一块砖头的质量——砖头歪了,整面墙就会出问题。研究团队采用F1分数分别衡量工具名称准确率和参数准确率,F1分数是一种综合考量精确性和完整性的评分指标,满分100分,分数越高代表工具调用越精准。

中间层是"子任务级别"的评估。每个完整任务可以拆分成若干个子任务,这一层检查的是每个子任务是否被完整执行。具体来说有两个维度:一是轨迹完成度,也就是AI的实际执行路径是否覆盖了标准答案要求的所有步骤;二是环境一致性,也就是AI执行完成后,系统的实际状态是否与预期状态相符。比如文件管理任务中,不仅要看AI是否执行了"重命名文件"这个步骤,还要检查文件实际上是否真的被重命名了。只有两个维度同时达标,子任务才算通过。

顶层是"任务级别"的评估。这一层的逻辑很简单但标准很严格:只有当一个任务中所有子任务都在子任务级别通过了评估,整个任务才算完成。最终的任务准确率,就是成功完成的任务数量占总任务数量的比例。这相当于整栋建筑的竣工验收——哪怕只有一个房间不合格,整栋楼的验收就不能通过。

除了这三层质量评估,研究团队还专门设计了效率导向的指标。其中最有代表性的是"同任务连续回合数",英文称为Same-task Streak。这个指标测量的是AI在连续多少个操作回合里一直在推进同一个任务,然后才切换到另一个任务。数值越低,说明AI的任务切换越灵活,越善于利用等待时间推进其他任务;数值越高,说明AI倾向于守在一个任务上"死磕",哪怕工具结果还没回来。

---

**五、19个模型上阵,发现了什么**

研究团队将19个当前主流的AI模型放上了AsyncTool的考场,包括GPT-4.1、GPT-4o、GPT-5、Gemini 2.5 Pro、Qwen-Max、Kimi K2等闭源模型,以及LLaMA系列、Qwen系列、GLM系列、DeepSeek等各种规模的开源模型。

从整体结果来看,排名最靠前的是GPT-4.1,综合得分38.06分。紧随其后的是GPT-4o(31.74分)和GPT-5(31.32分),以及Gemini 2.5 Pro(32.44分)。在开源模型中,DeepSeek-V3.1-Terminus表现最为突出,以28.93分的成绩与部分闭源模型拉平,展现了强劲的竞争力。Qwen2.5-32B-Ins以24.86分排在开源大模型第二位。而在规模较小的开源模型中,Qwen2.5-14B-Ins和Qwen3-14B以18.82分并列最高。

这些数字看起来似乎不高,这正是研究的重要发现之一——即便是最先进的AI模型,在异步多任务工具调用这个场景下的表现也远未令人满意。

研究团队还做了一个对比实验,将"同步模式"(工具立即响应)和"异步模式"(工具有延迟)下的得分进行了比较。结果非常直观:几乎所有模型在异步模式下的得分都明显低于同步模式。以某些模型为例,在子任务完成率这个指标上,同步模式可以达到60分左右,但切换到异步模式后,得分往往跌至30分以下。这种"断崖式下跌"清楚地说明,工具响应的延迟确实给AI带来了实质性的干扰。

在闭源模型中,Gemini 2.5 Pro在切换到异步模式后子任务完成率下降最为明显;在开源模型中,Qwen3-8B遭受的打击最大。这两个模型原本在同步模式下表现尚可,但遇到延迟反馈就"方寸大乱"。

---

**六、准确率与效率之间的权衡**

研究团队将"综合得分"和"同任务连续回合数"这两个指标放在同一张散点图上,观察各个模型的位置,发现了一个耐人寻味的规律。

理想中的模型应该出现在图的右下角——综合得分高(说明任务完成质量好)同时连续回合数低(说明任务切换灵活高效)。GPT-4.1确实接近这个理想区域,它不仅得分最高,切换行为也相对紧凑。Gemini 2.5 Pro和GPT-4o也位于这个有利区域,说明强模型确实能在保持准确率的同时高效地利用等待时间。

然而,图中还出现了两类"反常"模式。一类是得分低但连续回合数也低的小型开源模型——它们切换频繁,但切换后往往犯错,说明"勤快"不代表"高效",频繁切换任务的前提是能够正确追踪每个任务的状态和依赖关系,否则切换越多,出错越多。另一类是得分尚可但连续回合数较高的模型,比如DeepSeek-V3.1——它有较强的单任务解决能力,但不太擅长穿插切换,倾向于把一件事做完再开始另一件事。这种策略虽然保证了单任务的完成质量,但在充分利用等待时间方面不够高效。

这个发现指向一个重要结论:异步工具调用的表现不是单一维度的,它同时要求准确性(能把每个工具调用做对)和时序智能(知道什么时候该切换、什么时候该等待)。两者缺一不可。

---

**七、AI们在哪里"翻车"了**

通过对大量工具调用轨迹的分析,研究团队归纳出了几种典型的失败模式,就像交通事故分析报告一样,每种模式都有其独特的"肇事原因"。

最普遍的失败模式是"缺乏时序意识"。这种错误发生时,AI在发出一个工具调用请求后,立刻就假设结果已经回来了,然后直接用一个"想象中的"结果继续执行下一步。比如在上面提到的股票购买任务中,AI向系统请求查询"Alpha Tech"的股票代码,系统告知"工具正在执行中",但AI没有等待,直接自己"猜"了一个代码"ATGL",然后用这个错误的代码去查询股价。这种行为本质上是AI版本的"想当然",是大语言模型中幻觉现象在工具调用场景中的具体表现。

第二种失败模式是"工具混淆"。当AI同时处理多个任务时,它有时会把某个任务专属的工具错误地用在另一个任务上。比如在同时处理交易任务和文件管理任务时,AI可能会在推进交易任务的过程中,突然调用了文件系统的"进入目录"命令。这类错误一旦发生,往往会引发连锁反应——因为后续步骤都依赖于前面步骤的正确结果,一步走错就步步皆错。

第三种失败模式是"任务遗忘"。这在小型模型中尤为常见,在大型70B规模的模型中几乎不出现。具体表现是:AI在处理多个任务时,会优先完成最近接收到的任务,而把之前的任务搁置甚至彻底忘记。在三任务组合中,这种遗忘现象比双任务组合更为频繁,这符合直觉——需要同时跟踪的任务越多,认知负担越重,遗漏的概率就越大。

除了这三种主要模式,还有一些常规错误也在拖累得分,包括指令格式不规范、函数调用顺序错误、参数填写有误等。这类错误在小型模型中占有相当大的比重,但随着模型规模增大,发生频率会显著下降。

---

**八、任务数量越多,难度增长有多快**

研究团队还专门做了一组实验,考察当任务数量从两个增加到三个再到四个时,各模型的得分如何变化。

结果揭示了一个"非线性增长"的规律——任务数量的增加并不是线性地增加难度,而是指数级地放大挑战。以Qwen2.5-7B-Ins为例,从两任务到三任务,得分下降了36.28%;从三任务到四任务,又进一步下降了41.77%。LLaMA-3.3-70B-Ins的情况更为极端,两任务到三任务就直接跌掉了57.83%的得分。

相比之下,GPT-4.1和LLaMA-3.1-70B-Ins在任务数量增加时表现出了更好的稳健性,得分下降幅度相对较小。这说明不同模型在扩展性方面存在明显差异——有些模型的能力在面对更多并发任务时能较好地保持,有些则迅速崩溃。

此外,工具响应延迟的长短也会影响难度。研究团队测试了固定延迟(一回合和两回合)以及随机延迟(0到1回合随机、1到2回合随机)等多种配置。总体规律是延迟越长,难度越大,因为AI需要在更长的等待期间管理更多的"悬而未决"状态。

---

**九、少样本提示能帮上多少忙**

研究团队还测试了一种常用的"作弊技巧"——在提示词中加入一个成功完成异步多任务的范例轨迹,让AI参考学习。这种方式在学术界叫做"少样本提示",相当于在考试前给学生看了一道例题。

结果显示这种方法确实有效,但效果因模型而异。对于LLaMA-3.1-8B-Ins,加入范例后综合得分从1.26分跳升至6.74分,提升幅度相当显著。Qwen2.5-14B-Ins从18.32分提升至21.91分,Qwen2.5-72B-Ins从31.04分提升至34.55分,提升幅度也相当可观。不过,对于Qwen2.5-7B-Ins,加入范例后得分从6.04分提升至8.29分,提升幅度相对有限。总体而言,较小模型从范例中获益的程度差异较大,较大模型则通常能从范例中获得稳定的提升。

这个发现有一定的实践意义:在实际部署AI工具调用系统时,在提示词中加入高质量的范例轨迹,是一种相对简单且有效的改善策略,尤其适合那些本身参数规模不够大的模型。

---

**十、这项研究告诉我们什么**

归根结底,AsyncTool这项研究做了一件看似简单但很有价值的事:它把真实世界中早已存在的一个问题——工具响应需要时间,AI需要在等待中推进其他工作——变成了一个可以系统测量和比较的科学问题。

研究的结论可以用一句话来概括:当前AI模型在面对工具调用延迟时,普遍存在明显的性能退化,而导致退化的根本原因是缺乏时序协调能力——也就是在正确的时机做正确的事情,既不急于推进还没拿到依赖结果的步骤,也不在可以推进其他任务时无谓地等待。

研究还澄清了一个容易产生的误解:更频繁地切换任务不等于更好。真正优秀的异步工具调用能力,需要的是在准确维护每个任务状态的前提下,在合适的时机进行切换。这就像那位经验丰富的服务员,他之所以高效,不是因为他跑来跑去最多,而是因为他清楚地知道每桌客人的需求状态,在最恰当的时候出现在最恰当的位置。

从更宏观的视角看,这项研究指向的是AI工具使用能力的一个新前沿。随着AI助手被越来越多地部署到需要并行处理多项事务的真实场景中——比如同时管理多个用户的请求、同时协调多个系统的操作——异步工具调用能力将从一个"加分项"变成一个"基础能力"。AsyncTool为这个方向的研究提供了一套可用的基准工具,为未来模型的改进提供了明确的努力方向。

值得思考的是:既然我们已经知道"什么时候切换任务"是AI的薄弱环节,那么是否可以通过专门的训练数据或强化学习来强化这种时序感知能力?AsyncTool本身能否为训练更好的异步智能体提供高质量的监督信号?这些问题,或许将成为这个领域接下来几年的重要研究方向。

对这项研究感兴趣的读者,可以通过arXiv编号2605.27995检索完整论文,也可以访问论文中提供的GitHub仓库获取数据集和评测代码。

---

**Q&A**

Q1:AsyncTool基准测试和普通工具调用测试有什么区别?

A:普通工具调用测试通常假设工具会立即返回结果,而且一次只处理一个任务。AsyncTool的核心区别在于:它模拟了工具响应有延迟的情况,同时要求AI并发处理多个独立任务。AI发出调用后,系统不会立刻给结果,而是告知"正在执行中",AI需要在等待期间切换去推进其他任务,并在结果返回时正确衔接。这种设置更接近真实世界的使用场景。

Q2:为什么AI模型在异步多任务工具调用中表现变差?

A:主要有三个原因。第一,AI倾向于"想当然"——在工具结果还没返回时,就假设结果已知并继续执行,导致后续步骤基于错误前提。第二,同时处理多个任务时,AI容易把某个任务的工具错误用到另一个任务上,造成"工具混淆"。第三,AI有时会忘记某个任务的存在,优先处理最近的任务而遗漏之前的任务,在三任务以上的场景中尤为明显。

Q3:目前在AsyncTool上表现最好的模型是哪个?

A:在AsyncTool的综合得分排名中,GPT-4.1表现最佳,综合得分38.06分,同时任务切换效率也较好。在开源模型中,DeepSeek-V3.1-Terminus以28.93分排名第一,表现与部分闭源模型接近。总体来看,所有模型在异步场景下的得分都较低,说明异步多任务工具调用对当前所有主流AI模型都构成了显著挑战。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-