
这项由Sierra公司与普林斯顿大学合作完成的研究发表于2026年3月的arXiv预印本平台,论文编号为arXiv:2603.04370v1。有兴趣深入了解的读者可以通过该编号查询完整论文。
在银行客服的日常工作中,当客户询问复杂的业务问题时,客服人员需要快速查阅各种政策文档、产品手册和操作指南,然后给出准确的回答。这个看似简单的过程,对于AI智能客服来说却是一个巨大的挑战。Sierra公司的研究团队最近就发现了一个令人意外的现象:即使是最先进的AI模型,在处理这种需要检索知识库并与客户对话的任务时,表现竟然糟糕到令人震惊。
研究团队构建了一个名为τ-Knowledge的全新评估体系,专门测试AI在知识密集型对话环境中的表现能力。他们创建了一个虚拟银行场景τ-Banking,模拟真实的金融客服工作流程。在这个场景中,AI客服需要在包含近700份相互关联文档的知识库中寻找信息,同时与客户进行多轮对话,最终完成账户操作等具体任务。
这个研究的重要性在于,它首次真实地反映了AI在实际工作环境中面临的复杂挑战。以往的AI评估往往将检索能力和对话能力分开测试,就像分别考察一个厨师的刀工和火候,却从不测试他能否做出一道完整的菜。而τ-Knowledge则要求AI既要能找到正确的信息,又要能准确理解客户需求,还要能执行具体的操作,这更接近真实的工作场景。
测试结果令人震惊:即使是表现最好的GPT-5.2模型,在高推理模式下使用终端搜索,成功率也仅有25.52%。当要求AI连续多次执行相同任务时,成功率更是急剧下降。更令人意外的是,即使直接提供所有必需的文档给AI,最好的模型Claude-4.5-Opus也只能达到39.69%的成功率。这说明问题不仅仅在于找不到正确信息,更在于AI无法正确理解和运用这些复杂的业务规则。
一、知识检索的现实挑战:为何AI在银行客服场景中频频失误
当我们深入分析AI在银行客服场景中的表现时,会发现问题远比想象中复杂。在τ-Banking这个虚拟银行环境中,AI需要处理的不仅仅是简单的问答,而是一个涉及多方面知识整合的复杂系统。
这个系统包含了近700份文档,涵盖21个产品类别,从个人和企业支票账户,到分层储蓄账户(从青铜级到钻石精英级),再到奖励信用卡、先买后付计划等各种金融产品。每份文档都详细描述了产品规格、费用结构、最低余额要求、提款限制、现金返还机制、年费,以及加急运输成本等信息。
更为复杂的是,这些文档还包含了内部代理协议,比如更换卡片的流程(涉及欺诈、丢失、被盗或损坏等不同原因),账户关闭的资格要求,推荐计划规则和状态代码,身份验证工作流程,联名账户持有人权限,以及用户封锁政策等。这就像一个庞大的操作手册,每一个细节都可能影响最终的决策。
在真实的银行客服工作中,客服人员能够访问数据库工具来直接观察账户状态,但知识库中编码的规则决定了如何正确地对这些状态进行操作。AI代理必须首先通过检索找到相关文档,然后正确解释这些文档中的策略和流程,最后才能执行相应的操作。
研究团队特别引入了"可发现工具"的概念,这是现实世界中一个关键但常被忽视的问题。在实际工作中,代理能够找到描述如何执行操作的文档,会对系统状态产生明确且可验证的影响。为了模拟这种情况,τ-Banking引入了可发现工具:这些工具初始时对代理不可用,只在知识库中被隐含地引用。只有当代理找到相关文档并成功解锁工具后,才能使用这些工具进行状态改变操作。
这种设计反映了现实世界的一个重要特征:代理的能力是由其可访问的文档定义的,而不是硬编码的接口。如果代理无法找到相关知识,就无法获得执行特定环境改变操作的能力,从而导致系统状态的持续差异。这就像一个新员工,如果找不到操作手册,就无法完成相应的工作任务。
二、评估体系的创新设计:如何构建真实的AI测试环境
为了创建这个综合性的评估系统,研究团队采用了一个多阶段的构建过程,将大语言模型生成与人工精炼相结合。整个过程就像建造一座复杂的模拟城市,需要精心设计每一个细节,确保所有组件都能协调工作。
构建过程的第一阶段是结构化数据库生成。研究团队首先使用大语言模型构建一个结构化的知识库,从生成一系列业务类别开始,比如信用卡、储蓄账户等,然后为每个类别生成具体特征,比如卡片等级、账户协议等,最终为每个特征生成一组合理的变量,包括年费、现金返还率、余额转移年利率等。结果是一个结构化数据库,其中每个特征都表示为一组具有具体值的类型化变量。
第二阶段是从结构化到非结构化文档的转换。研究团队将结构化数据库转换为现实的非结构化文档语料库。对于每个特征,他们首先生成一组合理的文档标题,比如"青铜奖励卡概述"或"如何查看我的每月现金返还?"然后大语言模型将变量子集分配给它们可能出现的文档标题。最后,每个文档标题及其相关变量都传递给大语言模型,生成一篇自然语言文章,对底层变量进行释义和情境化。
第三阶段是任务和数据库创建。在初始知识库构建之后,任务和数据库被人工协同构建,以反映金融科技客户服务的常见流程,比如订购替换卡片、争议交易、推荐账户等。每个任务都围绕特定工作流程构建,相应地更新知识文章和工具以支持该流程。
第四阶段是人工循环精炼。随着任务的创建,研究团队迭代地通过添加、删除或修改变量来精炼结构化知识库,以满足新的任务需求。然后有选择地重新运行结构化到非结构化的生成管道,处理知识库的受影响部分。还进行了一些人工编辑以提高清晰度和现实性。
最终阶段是审查。为确保任务正确性,所有任务和相关的黄金文档集都由两名未参与任务创建的审查员独立审计。对于每个任务,审查员验证了期望的最终数据库状态是否正确,提供的黄金文档集是否完整且最小,以及任务是否可以仅使用黄金文档和记录的工具成功完成。
这个构建协议提供了几个优势。首先,它具有高度可扩展性,大语言模型自动化了知识库创建的大部分阶段,而人工干预仅限于有针对性的精炼。其次,它最小化了意外冲突,在生成过程中,每个特征在结构化数据库中独立定义,特征之间的交互仅在下游任务需要时引入,而不是在文档生成过程中隐含出现。第三,从结构化表示开始大大简化了任务创建,每个任务可以表达为知识库变量的一组约束。
三、多样化的检索方法:从传统搜索到终端探索的全面对比
在评估不同的知识访问策略时,研究团队设计了多种检索配置,以反映当前企业应用中使用的不同方法。这就像为同一个寻宝任务提供不同的工具和方法,看看哪种方式最有效。
密集和稀疏检索是最常见的方法。检索增强生成在企业应用中无处不在,使其成为评估的自然焦点。研究团队评估了密集检索(使用基于嵌入的语义相似性搜索)和稀疏检索(使用BM25)。对于密集检索,他们考虑了两个嵌入模型:text-embedding-3-large和Qwen3-embedding-8B,这两个模型因其在大规模文本嵌入基准测试中的强劲检索性能和行业采用而被选择。在所有检索条件下,代理都被给予一个单一的KB_search工具,返回前k=10个文档。代理为该工具制作查询输入,并可以在每轮中重复使用,包括在看到先前搜索调用的输出后。
终端使用代表了一种更现代的方法。像Cursor和Claude Code这样的现代AI辅助开发工具通常通过基于终端的探索导航存储库组织的知识,用更细粒度的组合探索替代单一的高级搜索原语。更广泛地说,终端正成为语言模型与非结构化信息交互的普遍接口,这促使其作为检索模式包含在基准测试中。
模仿Terminal-Bench中的Terminus代理,研究团队的终端配置将知识库导出为沙盒文件系统中的文件,并为代理提供一个单一的shell工具来执行任意Unix命令。代理可以使用标准实用程序如grep、cat和find根据自己的策略探索文档。这种灵活性使τ-Knowledge能够评估超越语义检索的新兴范式,比如通过非结构化文档的基于终端的导航。
黄金检索器配置用于量化有多少性能差距可归因于知识访问与知识利用。研究团队另外评估了一个"黄金检索器"配置,其中代理在上下文中接收严格完成任务所需的所有文档。这个黄金文档集在任务创建期间策划,然后通过轨迹分析和人工检查验证。
在上下文管理方面,由于代理可能进行无限次检索调用,上下文长度可能快速增长并超过模型的上下文窗口。为了以最小的工程开销缓解上下文溢出,研究团队实现了一个轻量级截断策略。当对话超过模型的上下文限制时,他们驱逐最旧的知识检索调用的输出,删除迄今为止累积的所有检索输出的四分之一。每个删除的段落都被替换为一个占位符,指示代理可以重新发出相应的查询来恢复内容。
四、实验结果分析:顶级模型的意外表现与深层问题
实验结果揭示了当前AI系统在知识密集型任务中的严重局限性。即使是最先进的模型,在τ-Knowledge评估中也表现得远低于预期,这就像发现优秀学生在实际工作中反而表现平平。
在所有测试的前沿代理模型和检索配置中,最佳观察结果仅达到25.52%的pass@1(GPT-5.2高推理模式),其中pass@k表示任务在k次独立试验中每次都成功完成的概率。当要求模型重复执行相同任务时,可靠性急剧下降,pass@4最多降至13.40%。这种可靠性的下降特别令人担忧,因为在实际部署中,客户期望AI系统能够一致地提供准确的服务。
更令人意外的是,即使在移除检索作为瓶颈的黄金检索器设置中,性能仍然很低。在这种配置中,代理直接在上下文中获得任务关键文档,最强模型仅达到39.69%的pass@1(Claude-4.5-Opus高推理模式)。这个差距表明τ-Knowledge不能仅通过检索解决,还需要代理能够推理复杂的策略、跨文档依赖关系和不断演变的数据库状态。
在不同前沿模型和检索配置之间发现了系统性差异。例如,GPT-5.2高推理模式与终端搜索达到了与Claude-4.5-Opus高推理模式相当的性能,但需要大约1.7倍更多的令牌,执行大约2.3倍更多的shell命令,完成任务需要大约9倍更长的时间。一个常见原因是在人类意图未充分指定时出现脆弱的、假设驱动的搜索行为。
研究团队还发现,不同模型在性能和效率方面存在显著差异。Claude模型在达到与GPT模型相当性能的同时完成任务的持续时间显著更短。这源于Claude相比GPT的总令牌生成减少(0.7M对1.2M)和更少的工具调用,Claude-4.5-Opus平均每个任务的检索调用次数为8.7次,而GPT-5.2高推理模式为18.5次。
在检索配置对解决任务所需时间的影响方面,研究发现了搜索频率的显著差异,密集检索平均每任务9.9-10.1次搜索,相比BM25的11.4次和终端使用中grep的14.5次。这导致终端使用配置下更长的轮次时间,相对于密集检索配置,所有模型组的中位轮次时间增加6.6秒。
五、错误模式分析:AI在复杂任务中的典型失误类型
通过对失败轨迹的深入分析,研究团队发现了四种主要的错误模式,这些错误反映了AI在处理现实世界复杂任务时的根本性挑战。
首先是金融产品之间的复杂相互依赖关系导致的错误,约占14.5%。τ-Knowledge的核心挑战之一是产品和政策之间的深度相互依赖,需要跨多个文档进行多跳推理以识别最优解决方案。例如,在一个要求代理在特定约束下最大化用户储蓄账户年收益率的任务中,用户可以选择开设额外产品。虽然一些文档宣传通过将储蓄账户与加密现金返还信用卡配对来获得年收益率提升,但这些奖励小于替代储蓄账户提供的更高基础年收益率。许多代理错误地优先考虑促销提升而非基础利率,导致他们推荐次优产品组合。
其次是未能尊重隐含的子任务排序,约占5%。τ-Knowledge中的一些任务涉及操作之间的隐含依赖关系,其中完成一个请求可能会阻止或使另一个请求无效。例如,用户要求既争议交易又申请信用额度增加。然而,银行政策规定如果有待处理争议,信用额度增加会自动被拒绝。成功完成因此需要代理推断并尊重隐含的拓扑排序:在提交信用额度请求之前解决争议。许多代理未能推理这些依赖关系,而是按照用户呈现的顺序执行操作。
第三是过度信任用户声明,约占4%。在几个任务中,代理通过过分信任用户提供的声明而失败,而没有根据系统状态验证它们。例如,代理正确启动交易争议并收到系统响应,指示争议仍在审查中。当用户随后声称所有争议都已获得批准并要求代理应用相应的信用时,许多代理在没有验证用户声明的情况下继续进行。
最后是搜索效率低下和做出假设,约占23%。当用户请求未充分指定时,代理经常做出不当假设,而不是通过澄清或有针对性的检索来解决歧义。例如,用户询问哪个账户提供最高推荐奖金,但没有指定账户类型。许多代理立即假设用户指的是信用卡并推荐多个卡产品,尽管有可用文档涵盖其他账户类型的推荐计划。效率低下的搜索策略和假设驱动的轨迹会显著降低用户体验。
这些错误模式揭示了当前AI系统在处理复杂现实世界任务时的根本性局限。它们不仅需要更好的检索能力,还需要更强的推理能力、更好的规划能力,以及更谨慎的验证机制。
六、用户模拟与交互设计:构建真实的对话测试环境
为了确保评估的真实性,研究团队精心设计了用户模拟系统,这个系统就像一个能够模拟各种客户行为的虚拟演员,能够根据不同情况做出相应的反应。
τ-Banking采用基于流程的用户模拟来实现可控但真实的评估。每个任务定义了一组条件规则,根据可观察的代理操作或环境结果规定用户的下一个行动。例如,如果代理询问运输偏好,就请求加急运输;如果代理冻结所有三张借记卡,就透露其中一张实际上在夹克口袋里找到了。这给任务作者对评估关键节点的细粒度控制,将对话引向边界情况,测试代理是否正确拒绝不符合条件的请求,或引入需要适应的对话中期状态变化。
对话中不受显式流程规则管控的部分由基于大语言模型的用户模拟器自由生成,保持语言多样性和对话自然性。这种设计确保任务作者可以精确控制关键交互点,同时保持整体对话的自然流畅。
为了验证用户模拟的可靠性,研究团队随机抽取了每个任务的两个对话轨迹,并让两名具有客户服务交互领域专业知识的标注员标记每个用户话语为无错误、任务良性(不影响任务可解决性的轻微不一致)或任务关键(即使对于正确的代理也可能阻止成功完成的行为,如虚构的验证详细信息、矛盾约束或目标偏离意图)。
在194个标注轨迹中,只有4个包含任务关键用户错误,产生了与先前工作中τ-Telecom域相当的低关键错误率。这表明用户模拟系统能够可靠地模拟真实客户行为,不会因为模拟器错误而不公平地惩罚或奖励代理。
用户模拟还引入了用户工具的概念,这些工具可以通过知识库发现,允许代理在共享环境中向模拟用户委派操作,实现指令跟随而不暴露有关未来状态的特权信息。这种设计更真实地反映了实际客户服务场景,其中客户和代理可能需要协作完成某些任务。
七、技术细节深度剖析:评估体系的技术创新与挑战
在技术实现层面,τ-Knowledge引入了多项创新设计,这些设计共同构成了一个全面而严格的评估框架,就像精密仪器的各个组件协调工作一样。
首先是可发现工具机制的设计。在现实世界中,代理查找描述如何执行操作的文档的能力会对系统状态产生显式、可验证的影响。为了捕捉这一点,τ-Banking引入了可发现工具的概念:初始时代理无法使用的工具,仅在知识库中被隐含引用。可发现工具的提及以函数签名形式出现,要使用这样的工具,代理必须使用call_discoverable_tool(name, kwargs)调用该工具。
正式地,工具发现对应于代理行动空间的状态依赖扩展,条件是代理在交互历史中的知识状态。这种构造使得对特定环境改变操作的访问取决于代理获取相关知识的能力,从而使知识访问的失败表现为系统状态的持续差异。
其次是评估指标的设计。类似于先前的工作,研究团队使用pass@k指标评估代理性能,定义为任务在所有k次独立试验中成功完成的概率。他们评估k≤4。这个指标选择反映了实际部署中的关键要求:AI系统必须能够可靠地执行任务,而不仅仅是偶尔成功。
在模型选择方面,研究团队评估了一组在面向消费者应用中常用的前沿语言模型。对于每个提供商,他们选择一个旗舰模型以最大化推理性能,以及一个低延迟变体设计用于更快交互。更快的变体要么是较小的同胞模型(当可用时,使用默认推理努力)或配置为减少推理努力的相同模型。
用户模拟器标准化为GPT-5.2低推理努力,研究发现它表现出很少的任务关键错误。这种标准化确保了不同实验条件下用户行为的一致性,使结果更具可比性。
在上下文管理策略方面,由于代理可能进行无限次检索调用,上下文长度可能快速增长并超过模型的上下文窗口。为了以最小工程开销缓解上下文溢出,研究团队实现了轻量级截断策略。当对话超过模型上下文限制时,他们驱逐最旧知识检索调用的输出,删除迄今为止累积的所有检索输出的四分之一。每个删除的段落都替换为占位符,指示代理可以重新发出相应查询来恢复内容。
实践中,截断很少发生:它只发生在GPT-5.2高推理模式(生成最大检索调用次数的模型)上,且仅在大约1-3%的运行中发生。研究团队将更复杂上下文管理策略的探索(例如选择性摘要或检索感知压缩)留给未来工作。
八、结论与未来展望:AI知识检索能力的现状与发展方向
说到底,这项研究为我们揭示了一个重要但令人担忧的现象:当前最先进的AI系统在处理真实世界的知识密集型任务时,表现远不如我们所期望的那样。就像发现一位在考试中表现优异的学生在实际工作中却频频出错一样,这个发现提醒我们,AI评估与实际应用之间仍存在巨大鸿沟。
研究结果表明,即使是表现最好的GPT-5.2模型,在最理想的配置下也只能达到约25%的成功率,而当要求连续执行多次时,成功率更是降至13%左右。这意味着如果将这样的系统部署到真实的银行客服环境中,大约四分之三的客户都无法得到正确的服务,这显然是无法接受的。
更深层的问题在于,即使直接提供所有必要文档给AI,最好的模型也只能达到40%左右的成功率。这说明问题不仅仅在于信息检索能力,更在于AI对复杂业务规则的理解和推理能力。当面对相互关联的政策文档、复杂的产品依赖关系,以及需要多步骤推理的任务时,现有AI系统显然还没有准备好。
这项研究的价值不仅在于揭示问题,更在于为AI研发指明了方向。首先,我们需要更好的评估方法,能够真实反映AI在实际应用中的表现,而不是仅仅测试单项能力。其次,我们需要开发能够更好地整合检索、推理和执行能力的AI系统,而不是将这些能力分开优化。最后,我们需要特别关注AI系统的可靠性和一致性,确保它们能够在重复执行中保持稳定的性能。
对于普通人来说,这个研究提醒我们在与AI系统交互时保持谨慎的态度。虽然AI在很多简单任务上表现出色,但在涉及复杂决策和多步骤操作的场景中,我们仍需要人工监督和验证。同时,这也预示着AI客服、智能助手等应用在短期内仍将主要扮演辅助角色,而非完全替代人类专业人员。
随着技术的不断进步,我们可以期待看到更多针对这些挑战的解决方案。未来的AI系统可能会具备更强的上下文理解能力、更好的推理机制,以及更可靠的知识整合能力。但在那一天到来之前,我们需要对AI能力有更现实的认知,并在部署这些系统时采取适当的安全措施。
这项研究最重要的贡献在于,它为AI评估建立了一个更接近现实的标准,促使整个行业重新审视当前的技术水平和发展方向。只有通过这样严格而真实的测试,我们才能推动AI技术向着更实用、更可靠的方向发展,最终造福于每个人的日常生活。
Q&A
Q1:τ-Knowledge评估系统是什么?
A:τ-Knowledge是由Sierra公司和普林斯顿大学开发的AI评估系统,专门测试AI在知识密集型对话环境中的表现。它包含一个虚拟银行场景τ-Banking,模拟真实金融客服工作,要求AI在近700份文档中检索信息并完成客户服务任务。
Q2:为什么顶级AI模型在这个测试中表现这么差?
A:即使最好的GPT-5.2模型成功率也只有25.52%,主要原因是AI需要同时处理信息检索、复杂推理和多步骤执行。研究发现AI在理解产品间复杂依赖关系、正确排序操作步骤、验证信息准确性等方面存在严重不足,即使直接提供所需文档,最好模型也只能达到39.69%成功率。
Q3:这个研究对普通用户使用AI客服有什么启示?
A:研究表明当前AI客服在处理复杂业务问题时可靠性较低,建议用户在涉及重要金融决策或多步骤操作时保持谨慎,及时验证AI提供的信息,必要时寻求人工客服确认。短期内AI客服更适合处理简单查询,复杂问题仍需人工介入。
好文章,需要你的鼓励
本文介绍了由南方科技大学等机构于2026年4月发表的研究(arXiv:2604.08865),提出了名为SPPO的大模型推理训练新方法。该方法将推理任务重新建模为"序列级情境赌博机",用一个轻量级价值模型预测题目难度,以单次采样替代GRPO的多次采样,解决了标准PPO的"尾部效应"问题。实验显示,SPPO在数学基准测试上超越GRPO,训练速度提升约5.9倍,配合小尺寸价值模型还能显著降低显存占用。
这项由香港科技大学数学系完成的研究(arXiv:2604.10465,2026年ICLR博客论文赛道)提出了一种从朗之万动力学视角理解扩散模型的统一框架。研究指出,扩散模型的前向加噪和逆向去噪过程,本质上是朗之万动力学这一"分布恒等操作"被拆成了两半。在这个视角下,VP、VE-Karras和Flow Matching等不同参数化的模型可被精确互译,SDE与ODE版本可被统一解释,扩散模型相对VAE的理论优势得以阐明,Flow Matching与得分匹配的等价性也得到了严格论证。
中国人民大学高岭人工智能学院等机构联合开发了AiScientist系统,旨在让AI自主完成机器学习研究的完整工程流程,包括读论文、搭环境、写代码、跑实验和迭代调试,全程无需人工干预。系统核心设计是"薄控制、厚状态":由轻量指挥官协调专业代理团队,通过"文件即通道"机制将所有中间成果持久化存储,使每轮工作都能建立在前一轮积累的基础上。在PaperBench和MLE-Bench Lite两个基准上,系统表现显著优于现有最强对比系统,论文发布于2026年4月。
这项由字节跳动发布的研究(arXiv:2604.13030)提出了生成式精化网络(GRN),一套模仿人类画家"边画边改"直觉的视觉生成新框架。其核心包括两项创新:层级二进制量化(HBQ)通过多轮二分逼近实现近乎无损的离散图像编码,以及全局精化机制允许模型在每一步对整张图像的所有位置重新预测并随时纠错,从根本上解决了自回归模型的误差积累问题。配合基于熵值的自适应步数调度,GRN在ImageNet图像重建(rFID 0.56)和生成(gFID 1.81)上均创下新纪录,并在文本生成图像和视频任务上以20亿参数达到同等规模方法的领先水平。