这项由中国科学技术大学的郭梓康、徐本锋、朱池为等研究员与北京元石科技联合开展的重要研究于2025年9月发表,专门针对人工智能在新兴的模型上下文协议(MCP)环境中的表现进行了全面评估。有兴趣深入了解的读者可以通过arXiv:2509.09734v1访问完整论文。
在我们日常生活中,当你想要完成某项任务时,往往需要使用各种不同的工具。比如做饭需要用到刀具、锅具、调料盒等,而且这些工具必须以特定的方式配合使用才能做出美味的菜肴。现在,人工智能系统也面临着类似的挑战——它们需要学会灵活地使用各种外部工具来解决复杂问题。
传统上,让AI使用工具就像给每个厨师单独配备专用厨具一样,每种工具都需要特殊的接口和连接方式。这样做的问题很明显:如果有M个厨师和N种厨具,就需要M×N种不同的连接方式,这不仅复杂繁琐,而且难以管理和扩展。为了解决这个问题,Anthropic公司推出了模型上下文协议(MCP),就像建立了一套通用的厨具接口标准,让任何厨师都能轻松使用任何符合标准的厨具。
然而,尽管MCP这个"通用接口"已经问世,我们却没有合适的方法来评估AI在这种新环境下的表现如何。就好比虽然有了统一的厨具标准,但我们缺乏一套有效的考试体系来判断哪个厨师真正掌握了使用这些标准化厨具的技巧。这就是中科大团队要解决的核心问题。
研究团队发现,现有的评估基准测试就像用评估单一厨具使用技能的标准去衡量整套厨房操作能力一样不够全面。比如著名的BFCL基准测试虽然在评估AI的工具使用能力方面很知名,但它的评分结果与实际用户体验之间存在明显差异。用户在实际使用中发现Claude 3.7 Sonnet在处理复杂工具辅助任务方面明显优于GPT-4o,但BFCL的排名却可能显示相反的结果。
一、构建AI的"标准化厨房":MCP服务器测试平台
为了创建一个真正能评估AI在MCP环境下表现的测试体系,研究团队首先需要建立一个完整的"标准化厨房"。这个过程就像为厨艺学校建设实训基地一样,需要配备各种不同类型的厨具和设备。
研究人员从369个候选的MCP服务器中开始了严格的筛选过程。这个筛选过程就像挑选厨具供应商一样严格,他们的标准包括三个关键要求:首先,这些工具必须能够稳定运行,就像厨具必须质量可靠一样;其次,这些工具必须是"无状态"的,意思是每次使用都不会受到之前使用情况的影响,就像每次使用刀具切菜时,刀具本身不会记住上次切过什么;最后,这些工具主要依赖文本输入和输出,就像通过文字说明书就能操作的设备一样。
经过三名专家历时七天的仔细筛选,团队最终选定了33个MCP服务器,它们总共提供188种不同的工具。这些工具覆盖了广泛的应用领域,就像一个设备齐全的现代化厨房一样。其中,实用工具类占比最大,达到37%,包括各种日常所需的基础功能;新闻和趋势类工具占22%,能够获取最新信息;开发工具类占20%,主要面向技术开发需求。此外还包括地图导航工具(26个)、体育游戏工具(20个)、金融投资工具(18个)、旅行交通工具(17个)以及搜索网页内容工具(4个)。
为了让这些来自不同供应商的工具能够协同工作,研究团队使用了mcprouter这个统一管理工具,就像安装了一个中央控制台,让所有设备都能通过统一的接口进行操作。这样一来,任何AI系统都能以标准化的方式与这188种工具进行交互,大大简化了测试和评估的复杂性。
二、设计AI的"烹饪考试":600道渐进难度题目
建好了标准化厨房之后,研究团队面临的下一个挑战是设计合适的考试题目。这些题目不能太简单,也不能过于复杂,而且需要能够系统性地测试AI在不同复杂程度任务中的表现。
研究团队创造性地设计了一套六级难度递增的测试体系,就像厨艺考试从简单的煮蛋开始,逐步递增到制作精美的法式大餐一样。这六个级别分为两个维度进行划分:服务器范围(单服务器还是多服务器)和调用依赖性(单次调用、并行调用还是顺序调用)。
最简单的级别是"单服务器-单次调用",就像只用一个锅做一道最简单的菜,比如煮个水蛋。在这个级别中,AI只需要从一个服务器中选择一个工具,调用一次就能完成任务。
稍微复杂一些的是"单服务器-并行调用",就像同时用同一个炉灶的多个炉头烧菜,各道菜之间互不影响。AI需要从一个服务器调用多个工具或对同一工具进行多次调用,但这些调用之间没有依赖关系。
再进一步是"单服务器-顺序调用",就像做一道需要多个步骤的复杂菜肴,每个步骤都必须按照特定顺序进行,后面的步骤依赖于前面步骤的结果。比如做红烧肉,必须先焯水、再炒糖色、然后炖煮,步骤不能颠倒。
当涉及多个服务器时,复杂性进一步增加。"多服务器-单次调用"看似简单,实际上是在考验AI的判断能力,就像面对一整个厨具市场,需要准确选择最适合当前任务的那一件工具。
"多服务器-并行调用"就像同时使用来自不同品牌的厨具做几道不相关的菜,需要AI协调多个不同来源的工具,但各个工具之间没有依赖关系。
最复杂的是"多服务器-顺序调用",这就像筹办一场盛大宴会,需要使用来自不同供应商的各种设备,而且这些设备的使用必须严格按照时间顺序,前一个设备的产出要作为后一个设备的输入。这种级别的任务最能考验AI的综合协调能力。
为了生成这600道测试题目,研究团队采用了一套精心设计的三阶段流程。首先,他们建立了分类框架来系统性地控制任务复杂性。然后,利用Claude 3.7 Sonnet模型生成包含四个关键要素的情境组合:工具选择(确定完成任务所需的具体工具集合)、用户画像(创建详细的用户角色,包括专业背景和交流风格)、情境描述(构建能自然引出工具使用需求的故事背景)、以及明确目标(定义用户想要达成的具体、可验证的结果)。
最后,这些结构化的组件被合成为自然的用户查询。这个过程就像编写剧本一样,每个查询都是一个完整的小故事,有背景、有人物、有冲突、有目标。更重要的是,每个查询都经过精心设计,确保只使用选定的工具就能完全解决问题,避免了模糊性或无法完成的任务。
三、创建AI的"阅卷老师":MCP-Eval评估系统
有了标准化的测试环境和精心设计的考试题目,研究团队还需要解决最后一个关键问题:如何客观公正地评判AI的表现。这就像需要一位经验丰富、标准一致的阅卷老师一样。
传统的评估方法往往过分关注AI是否严格按照预设的步骤执行任务,就像评判厨师是否完全按照食谱的每一个细节操作一样。但研究团队认识到,在现实世界中,解决问题往往有多种可行的路径,关键在于最终是否达成了目标,而不是过程是否完全一致。
因此,他们开发了MCP-Eval评估系统,这个系统的核心理念是"结果导向"而非"过程导向"。就像评判一道菜的好坏主要看味道是否美味、营养是否均衡,而不是厨师切菜的手法是否标准一样。MCP-Eval主要关注AI是否成功完成了用户的任务,而不是它具体采用了哪种方法或工具调用顺序。
这个评估系统采用了"LLM充当评判员"的方法,具体使用o3-mini-high模型作为评判标准。评判过程遵循几个核心原则:首先,优先考虑用户的核心意图,判断最终结果是否真正解决了用户的问题;其次,将具体外部数据的存在视为使用工具的决定性证据,因为这些数据不可能仅凭AI的内置知识获得;再次,强调充分性原则,只要满足了核心需求就算成功,不需要面面俱到;最后,忽略表面因素如格式或冗长程度,专注于实质内容。
为了验证这套评估系统的可靠性,研究团队进行了人工评估对比实验。他们请三名人类专家对60个测试项目进行评判,每个专家大约花费2.5小时完成评估。结果显示,MCP-Eval的判断与人类专家多数意见的一致性达到91.67%,Cohen's Kappa系数为0.734,表明评估系统具有很高的可靠性。同时,三名人类专家之间的一致性Fleiss' Kappa为0.671,总体三方一致率为86.67%,这进一步证实了评估标准的合理性。
四、AI们的成绩单:意外的发现与深度分析
当研究团队将10个代表性的大语言模型放到这套测试体系中进行评估时,结果让人既惊喜又意外。这些模型包括了当前最先进的专有系统如Anthropic的Claude系列、OpenAI的GPT-4o和o3-mini、Google的Gemini系列,以及优秀的开源模型如通义千问、Kimi和DeepSeek等。
最令人意外的发现是,开源模型的表现竟然可以与甚至超越一些知名的专有模型。这就像发现了一些小餐厅的厨师烹饪技艺竟然不输给五星级酒店的主厨一样令人惊讶。具体来说,通义千问Qwen3-235B-A22B在使用ReAct框架时取得了64.7%的最高总体得分,超越了所有其他模型。Kimi K2也表现优异,在工具调用模式下达到61.0%的得分。
在专有模型中,Anthropic的Claude 4 Sonnet表现最佳,在工具调用模式下获得58.0%的得分。令人意外的是,OpenAI的GPT-4o在所有测试中都表现不佳,平均得分仅为27.8%到30.7%,这与其在其他基准测试中的优异表现形成鲜明对比。这种差异表明,传统的评估基准可能无法准确反映模型在实际协议化工具使用场景中的真实能力。
研究团队还发现,不同的交互框架对模型性能有显著影响。就像同一位厨师使用不同的厨具可能会产生截然不同的烹饪效果一样,同一个AI模型在不同的交互模式下表现差异巨大。最典型的例子是Qwen3-235B-A22B,它在ReAct框架下表现卓越,但在工具调用模式下却出现了严重的性能下降,得分从64.7%骤降至40.2%。这种下降主要是因为模型在需要调用工具时经常选择不调用,导致任务提前终止并给出错误答案。
相反,Claude 4 Sonnet在工具调用模式下的表现明显优于ReAct框架,从49.2%提升至58.0%,说明其架构更适合这种交互方式。这些发现强调了选择合适的交互框架来释放模型最大潜力的重要性。
通过分析不同复杂度级别的表现,研究团队发现了一个清晰的难度梯度。正如预期,随着任务从单服务器转向多服务器、从单次调用发展到顺序调用,所有模型的性能都呈现下降趋势。有趣的是,Claude 4 Sonnet在这个趋势中表现出了一个例外:它在更复杂的多服务器任务上的表现反而比简单任务更好。分析显示,这是因为该模型在简单任务上容易过度依赖其内置知识而不使用工具,但复杂任务的高要求迫使它必须正确使用外部工具,反而取得了更好的效果。
从成本效率角度看,表现最佳的模型往往也是最昂贵的。Kimi K2和Claude 4 Sonnet分别消耗101.7k和140.3k个token,这主要是因为它们使用了"思考模式"来进行内部推理。相比之下,o3-mini展现出了优异的效率平衡,以36.5k的token消耗获得50.0%的通过率,这个token成本与表现更差的模型相当。
五、AI犯错的常见模式:从失败中学习
通过深入分析AI在测试中的失败案例,研究团队识别出了几种典型的错误模式,这些发现对于改进AI系统具有重要意义。
第一种常见错误是对查询的误解。就像厨师没有完全理解顾客的点菜要求一样,AI有时无法准确把握用户的核心目标,或者忽略了查询中的关键约束条件。这种错误往往导致AI虽然使用了工具,但解决的却是错误的问题。
第二种错误是拒绝使用工具。这就像一个固执的厨师坚持凭记忆做菜而不愿查阅食谱一样,某些AI模型倾向于依赖其内置知识来回答问题,即使任务明确需要获取外部实时数据或专有信息。这种行为在处理需要最新信息的任务时尤其成问题。
第三种错误是关键信息的遗漏。AI可能成功使用了工具并获得了正确信息,但在生成最终回答时却未能包含所有必要的信息,或者在多步骤任务中忽略了前面步骤获得的重要数据。这就像厨师准备了所有食材但在最后装盘时遗漏了某些配菜一样。
最后一种错误是信息捏造。尽管AI使用了工具并获得了正确的数据,但在回答中却添加了工具输出中不存在的虚假信息,或者提供了与工具结果直接矛盾的答案。这是最严重的错误类型,因为它不仅没有解决问题,还可能误导用户。
这些错误模式的识别为改进AI系统指明了方向。它们揭示了当前模型在理解任务需求、决策是否使用工具、整合多源信息以及保持信息准确性方面仍存在的挑战。
六、研究意义与未来展望
这项研究的意义远远超出了单纯的技术评估,它为整个AI领域的发展提供了重要的方向指引。首先,MCP-AgentBench填补了协议化工具使用评估的空白,为研究社区提供了一个标准化、可靠的测试平台。这就像为厨艺教育建立了统一的考试标准,让不同学校培养的学生都能在同一个标准下接受评价。
研究揭示的开源模型优势颠覆了人们对AI能力分布的传统认知。这一发现表明,随着开源社区的不断努力,AI技术的门槛正在降低,更多的创新可能来自于分布式的协作开发,而不仅仅是大型科技公司的封闭研发。
交互框架的重要性发现也为AI系统的设计和部署提供了实用指导。就像不同的烹饪方法适合不同的食材一样,不同的AI模型需要配合合适的交互框架才能发挥最佳性能。这提醒开发者在选择和部署AI系统时不能仅仅关注模型本身的性能指标,还需要考虑整体的交互设计。
从技术发展趋势看,MCP协议的推广将极大简化AI与外部工具的集成复杂性。目前每个AI系统都需要为每种工具开发专门的接口,这种"M×N问题"严重阻碍了规模化应用。MCP的标准化方案就像建立了通用的USB接口一样,让任何符合标准的工具都能与任何支持该协议的AI系统无缝对接。
研究团队的工作也为评估方法学做出了重要贡献。MCP-Eval采用的结果导向评估方法更符合实际应用场景的需求,这种评估哲学可能会影响未来AI评估基准的设计方向。传统的过程导向评估就像只看学生解题步骤而不看最终答案一样,虽然有其价值,但在实际应用中,用户更关心的是问题是否得到了解决。
从更宏观的角度看,这项研究预示着AI正在从单一的文本生成工具演变为能够与现实世界深度交互的智能代理。当AI能够熟练使用各种外部工具时,它们将具备解决更复杂、更实际问题的能力。这种演进可能最终导致AI助手成为真正意义上的通用问题解决者,而不仅仅是信息处理器。
展望未来,随着更多工具和服务采用MCP标准,我们可能会看到一个更加互联互通的AI生态系统。在这个生态中,AI不再是孤立的智能孤岛,而是能够调动各种专业工具和服务的协调中心。这将为智能办公、智能家居、智能医疗等各个领域带来革命性的改变。
说到底,中科大团队的这项研究不仅为我们提供了评估AI工具使用能力的科学方法,更重要的是,它让我们看到了AI技术发展的新方向和新可能。当AI学会了像熟练工匠一样使用各种工具时,它们将不再局限于回答问题和生成内容,而是能够成为我们在数字世界中真正的得力助手。这个未来或许比我们想象的更近,而这项研究正是通往那个未来的重要里程碑。有兴趣深入了解这项开创性研究的读者可以通过arXiv:2509.09734v1查阅完整的技术细节和实验数据。
Q&A
Q1:MCP-AgentBench是什么?它能测试AI的哪些能力?
A:MCP-AgentBench是中科大团队开发的AI评估基准测试系统,专门测试AI在模型上下文协议(MCP)环境下使用各种外部工具的能力。它包含600个测试题目,分为六个难度级别,能够系统性地评估AI从简单的单工具使用到复杂的多工具协调等各种场景下的表现,就像给AI设计了一套完整的"工具使用技能考试"。
Q2:为什么开源AI模型在这个测试中表现这么好?
A:研究发现通义千问Qwen3-235B-A22B等开源模型在MCP-AgentBench中取得了最高64.7%的得分,超越了许多知名专有模型。这表明开源社区在协议化工具使用方面的优化非常出色,这些模型经过了大量实际应用场景的训练和调优,在处理标准化工具接口时展现出了意想不到的优势。
Q3:MCP协议对普通用户有什么实际意义?
A:MCP协议就像为所有AI工具建立了统一的"接口标准",解决了之前每个AI系统都需要单独适配每种工具的复杂问题。对普通用户来说,这意味着未来AI助手将能更轻松地使用各种软件和服务,无论是查询天气、预订酒店还是处理文档,都能通过统一的方式实现,大大提升使用体验和效率。
好文章,需要你的鼓励
OpenAI团队的最新研究揭示了大语言模型产生幻觉的根本原因:AI就像面临难题的学生,宁愿猜测也不愿承认无知。研究发现,即使训练数据完全正确,统计学原理也会导致AI产生错误信息。更重要的是,现有评估体系惩罚不确定性表达,鼓励AI进行猜测。研究提出了显式置信度目标等解决方案,通过改革评估标准让AI学会诚实地说"不知道",为构建更可信的AI系统指明方向。
字节跳动AI实验室提出"逆向工程推理"新范式,通过从优质作品反推思考过程的方式训练AI进行创意写作。该方法创建了包含2万个思考轨迹的DeepWriting-20K数据集,训练的DeepWriter-8B模型在多项写作评测中媲美GPT-4o等顶级商业模型,为AI在开放性创意任务上的应用开辟了新道路。
ByteDance Seed团队开发的UI-TARS-2是一个革命性的AI助手,能够通过观看屏幕并用鼠标键盘操作电脑,就像人类一样完成各种任务和游戏。该系统采用创新的"数据飞轮"训练方法,在多项测试中表现出色,游戏水平达到人类的60%左右,在某些电脑操作测试中甚至超越了知名AI产品,展现了AI从对话工具向真正智能助手演进的巨大潜力。