微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

Anthropic研究团队提出革命性AI智能体扩展方案：让电脑代理从"独行侠"变成"超级团队"

人工智能智能体协作计算机自动化

Anthropic研究团队提出革命性AI智能体扩展方案：让电脑代理从"独行侠"变成"超级团队"

作者：科技行者

2025-10-29 13:52

分享至：

Simular Research团队提出革命性bBoN方法，通过让多个电脑智能体协同工作并从中选择最佳方案，将任务成功率从60%提升至接近人类水平的69.9%。该方法将复杂操作转换为简洁叙述，采用比较式判断机制，在Ubuntu、Windows和Android三大平台均取得显著性能提升，为AI助手的实用化发展指出了新方向。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-10-29 13:52 • 科技行者

在2024年10月2日发表的这项开创性研究中，来自Simular Research的Gonzalo Gonzalez-Pumariega、Vincent Tu、Chih-Lun Lee等研究团队提出了一个名为"行为最佳N选择(Behavior Best-of-N, bBoN)"的全新方法。这项研究以预印本形式发布，编号为arXiv:2510.02250v1，为计算机使用智能体(CUA)领域带来了突破性进展。有兴趣深入了解的读者可以通过该论文编号查询完整研究内容。

想象一下这样的场景：你想要一台电脑帮你完成复杂的办公任务，比如整理数据表格、编写报告或者管理文件。目前的电脑智能体就像一个新手员工，虽然聪明但经常在关键时刻犯错，特别是当任务变得复杂且需要很多步骤时。这就好比让一个人独自完成一个大型项目，即使他很能干，也容易在某个环节出错，导致整个项目失败。

研究团队发现了一个有趣的现象：虽然单个智能体容易失败，但不同的智能体往往在不同的任务上表现出色。这就像组建一个足球队，每个球员都有自己的强项，有的擅长进攻，有的善于防守。关键在于如何让这些"球员"协同工作，发挥出整体大于部分之和的效果。

传统的解决方案就像是让多个员工同时做同一件事，然后简单地选择看起来最好的结果。但问题在于，判断哪个结果最好并不容易。电脑任务往往包含大量细节信息，就像一部长篇小说，要从中提取关键情节并做出判断是非常困难的。

研究团队提出的bBoN方法就像为这个问题找到了一把金钥匙。他们的解决方案包含两个核心创新：首先是"行为叙述生成器"，它能够将复杂的电脑操作过程转换成简洁明了的故事；其次是"行为最佳N选择判断器"，它专门负责比较这些故事，选出最佳方案。

一、化繁为简：将复杂操作转换为清晰故事

研究团队面临的第一个挑战是如何处理海量的操作信息。当一个智能体执行任务时，每一步操作都会产生屏幕截图和行动记录，就像拍摄一部超长电影。要从这些原始素材中提取有用信息，就像要从一堆杂乱的录像带中编辑出一个精彩的纪录片。

行为叙述生成器的工作原理很巧妙。它不是简单地记录"点击了哪里"或"输入了什么"，而是关注每个行动实际造成了什么变化。比如，当智能体点击保存按钮时，生成器不仅记录"点击保存按钮"，还会观察屏幕是否真的出现了保存成功的提示，文件是否确实被保存。这就像一个细心的记者，不仅记录发生了什么事件，还要核实事件的实际结果。

这个生成器特别聪明的地方在于它对鼠标操作的处理。由于鼠标点击需要精确定位，智能体很容易产生幻觉，以为自己点击成功了实际上却失败了。为了解决这个问题，研究团队为生成器加入了视觉增强功能。在执行点击操作前，系统会在目标位置标记一个圆圈；操作后，会截取操作区域的放大图像，让生成器能够清楚地验证操作是否真的成功了。

通过这种方式，原本密密麻麻的操作记录被转换成了精简的行为叙述。这些叙述就像电影的情节梗概，保留了所有重要信息，但去除了无关紧要的细节。比如，一个包含50个屏幕截图的复杂任务可能被概括为"打开电子表格，筛选了6-12点的数据，保存为新文件"这样的简洁描述。

二、团队智慧：多个智能体协同作战

研究团队采用的策略不是依赖单一的超级智能体，而是让多个智能体同时工作，然后从中选择最佳结果。这种方法的精妙之处在于不同智能体往往擅长不同类型的任务。

就像一个优秀的餐厅，厨房里有专门做前菜的厨师，有专门做主菜的厨师，还有专门做甜点的厨师。虽然让任何一个厨师独自完成整顿饭都可能出错，但如果每道菜都由最擅长的厨师来做，最终的用餐体验就会大大提升。

研究团队发现了一个有趣的现象：智能体之间存在"互补性"。当他们让三个不同的智能体分别尝试100个任务时，发现每个智能体都有自己独特的成功模式。智能体A可能在处理文档编辑方面表现出色，智能体B可能更擅长数据分析，而智能体C可能在文件管理方面更胜一筹。

更令人兴奋的是，当任务失败时，往往是因为智能体在某个特定步骤上犯了错误，而这个步骤对其他智能体来说可能很简单。这就像解数学题，有些人可能在计算环节出错，有些人可能在概念理解上有困难，但很少有人在所有环节都出错。

基于这个发现，研究团队设计了一个"宽度扩展"策略。他们不是让一个智能体尝试多次，而是让多个不同的智能体（或同一智能体的不同版本）同时尝试同一个任务。这样可以大大增加至少有一个智能体成功完成任务的概率。

三、明智选择：如何从多个方案中挑选最佳答案

有了多个智能体的不同尝试结果后，下一个关键问题是：如何判断哪个结果最好？这就像面对多道菜肴，需要一个有经验的品鉴师来判断哪道菜做得最成功。

传统的评估方法面临巨大挑战。大多数现有的评估系统都是为单一结果设计的，而且往往依赖于人工编写的特定规则。这些规则就像严格的考试标准答案，只能识别预定义的"正确"解法，无法处理同样有效但方法不同的创新解决方案。

研究团队设计的行为最佳N选择判断器采用了一种全新的比较策略。它不是独立评估每个结果，而是同时观察所有候选方案，进行相互比较。这就像一个经验丰富的老师批改作文，不是对照标准答案打分，而是通过比较不同学生的答案来判断哪篇写得更好。

这个判断器特别擅长处理"多选一"的选择题格式。研究团队发现，这种方式比让系统逐一评估每个方案更加准确和高效。系统会收到所有候选的行为叙述，然后像一个仔细的评委一样，分析每个方案的优缺点，最终选出最佳答案。

为了确保判断的准确性，研究团队还在系统提示中强调了"引证"的重要性。判断器不仅要选出最佳方案，还要说明选择的理由，引用具体的行为叙述作为证据。这就像法官判案时不仅要给出判决，还要详细说明判决依据。

四、实战检验：在真实任务中的卓越表现

研究团队在OSWorld基准测试中对他们的方法进行了严格验证。OSWorld是一个包含369个真实Ubuntu系统任务的综合测试平台，涵盖了操作系统、办公软件、日常应用、专业软件和工作流程等五大类别。这些任务就像一个全面的"驾驶考试"，测试智能体在各种实际情况下的表现能力。

实验结果令人振奋。传统方法的最高成功率约为60%，而采用bBoN方法的系统在100步限制内达到了69.9%的成功率，几乎接近人类72%的表现水平。这相当于将错误率降低了约25%，是一个相当显著的提升。

更令人印象深刻的是方法的可扩展性。研究团队发现，随着参与协作的智能体数量增加，整体成功率也在稳步提升。从使用2个智能体到使用10个智能体，成功率呈现出清晰的上升趋势，证明了"人多力量大"这个古老智慧在人工智能领域同样适用。

研究团队还测试了不同智能体组合的效果。他们发现，使用不同类型的智能体混合组队比使用同一类型的多个智能体效果更好。这就像组建一个多元化的工作团队，每个成员带来不同的专业技能和思维方式，最终能够产生更好的协同效应。

特别值得一提的是，研究团队的基础智能体框架Agent S3本身就是一个创新。这个框架集成了图形界面操作和编程代码执行两种能力，可以根据任务需求自动选择最合适的操作方式。比如，对于数据批量处理任务，它会选择编程方式来提高效率；对于需要精确界面操作的任务，它则会采用图形界面方式来确保准确性。

五、超越边界：在不同系统中的广泛适用性

为了验证方法的通用性，研究团队还在其他两个重要平台上进行了测试：WindowsAgentArena和AndroidWorld。这两个平台分别代表了Windows桌面环境和Android移动环境，与原本的Ubuntu系统形成了完整的跨平台测试矩阵。

在WindowsAgentArena的测试中，bBoN方法同样展现出了强大的适应能力。这个平台包含154个Windows系统任务，涵盖了LibreOffice办公套件、Edge和Chrome浏览器、文件管理器、VS Code开发环境等常用软件。即使没有针对Windows系统进行特殊优化，bBoN方法仍然取得了6.4%的性能提升。

AndroidWorld平台的测试结果更加令人鼓舞。这个平台专门测试移动设备上的智能体表现，包含116个Android应用任务。移动环境的交互方式与桌面系统截然不同，主要依赖触摸手势而非鼠标键盘操作。在这种完全不同的环境中，bBoN方法依然取得了3.5%的性能提升，证明了其方法的普适性。

这种跨平台的成功表现特别重要，因为它表明bBoN不仅仅是针对特定系统的优化技巧，而是一种具有普遍意义的智能体协作方法。就像一个优秀的管理方法可以在不同的公司和行业中发挥作用一样，bBoN方法也展现出了在不同技术环境中的适应能力。

六、深入分析：方法的关键成功要素

研究团队通过详细的对比实验，揭示了bBoN方法成功的几个关键要素。他们系统性地测试了不同组件的贡献度，就像汽车工程师拆解引擎来理解每个部件的作用一样。

行为叙述表示法的重要性通过对比实验得到了明确验证。研究团队比较了三种不同的表示方法：直接使用屏幕截图、简单的屏幕截图描述，以及他们提出的行为叙述方法。结果显示，行为叙述方法比最佳对比方案提高了3.4%的成功率。这看似微小的提升实际上意义重大，因为它证明了将复杂操作序列抽象为关键行为描述的价值。

比较式选择机制的优势也得到了实验确认。研究团队将他们的方法与改进版的WebJudge进行了对比。WebJudge是一个在网络环境中表现优异的判断系统，号称与人类判断的一致性达到85%。然而，在电脑使用任务的比较选择中，bBoN方法显示出了明显优势，特别是在处理多个候选方案时。

更有趣的发现是关于智能体混合策略的效果。研究团队测试了不同智能体模型的组合，包括GPT-5、GPT-5 Mini、Gemini 2.5 Pro和Claude 4 Sonnet等。他们发现，单纯使用更强大的模型固然重要，但合理的模型混合能够产生更好的效果。GPT-5和Gemini 2.5 Pro的组合取得了最佳的66.7%成功率，同时实现了78%的任务覆盖率。这就像一个均衡的投资组合，通过分散化降低风险并提高整体回报。

七、精确诊断：系统性能分析与改进空间

研究团队对bBoN判断器的准确性进行了细致分析，就像医生对病人进行全面体检一样。他们发现，在能够产生实际改进的159个任务子集中，判断器达到了78.4%的准确率。这个数字看起来不算完美，但考虑到任务的复杂性和评估的困难性，这已经是一个相当不错的表现。

更重要的是，研究团队还进行了人工评估，以了解判断器的真实表现水平。他们邀请人类专家对判断器的选择进行评价，结果发现人类专家对判断器选择的认同率达到92.8%。这个结果表明，虽然自动评估脚本可能存在局限性，但判断器的实际选择质量远高于数字显示的水平。

对于剩余的失败案例，研究团队进行了详细分析，发现主要问题集中在两个方面。第一类是行为叙述生成过程中的"幻觉"问题，主要发生在视觉模型难以准确识别细微文本细节的情况下。比如，系统可能无法正确识别数字中的负号，导致生成不准确的行为描述。

第二类问题涉及图形界面智能体和编程智能体之间的协调。有时图形界面智能体未能正确识别编程智能体所做的更改，反而执行了覆盖这些更改的操作。这类问题虽然数量不多，但对最终结果影响显著，因为它们往往导致整个任务链的失败。

八、技术创新：智能体框架的关键改进

除了核心的bBoN方法，研究团队还对基础智能体框架进行了重要改进，开发出了Agent S3系统。这个系统的改进虽然看似技术性，但对整体性能提升发挥了重要作用。

Agent S3的第一个重要创新是引入了编程智能体。这个智能体能够执行Python和Bash代码，处理那些通过图形界面操作效率低下的任务。比如，当需要处理大量数据或进行复杂文件操作时，编程智能体可以直接编写和执行相应的代码，大大提高执行效率。

编程智能体的工作方式很有趣。它采用逐步迭代的方法，每次只执行一个小的代码片段，然后观察执行结果，再决定下一步行动。这就像一个谨慎的工程师，每完成一个组件就进行测试，而不是一次性完成整个系统再进行调试。

第二个重要改进是简化了系统架构，去掉了复杂的分层规划机制，改用"扁平化"策略。传统方法中，系统会先制定高层计划，然后分解为具体步骤执行。但研究团队发现，现代大型语言模型已经具备了强大的上下文理解能力，能够在执行过程中动态调整策略，不再需要复杂的事先规划。

这种简化带来了显著的效率提升。Agent S3比其前身Agent S2减少了52.3%的语言模型调用次数，缩短了62.4%的任务执行时间，同时将成功率提高了13.8%。这就像去掉了组织中不必要的管理层级，让决策和执行更加直接高效。

九、实际应用：技术的现实意义和局限性

研究团队坦诚地讨论了他们方法的适用范围和局限性。bBoN方法确实需要能够从相同初始状态生成多个独立执行路径的环境支持。这在研究环境中很容易实现，因为可以使用虚拟机快照来确保每次都从完全相同的起始点开始。

在实际应用中，这种要求也不难满足。许多企业和个人用户已经在使用虚拟机环境来隔离和管理不同的工作环境。对于这些用户来说，部署bBoN方法只需要相对简单的技术调整。虚拟机的快照和复制功能可以很好地支持多个智能体的并行执行。

然而，直接在用户的日常工作桌面上部署这种方法确实存在挑战。多个智能体同时操作同一个桌面环境可能会相互干扰，就像多个人同时使用同一台电脑一样。此外，一些任务涉及在线共享资源，比如购物车或云端文档，多个智能体的并发操作可能导致冲突。

研究团队认为，这些局限性并非不可克服的技术障碍，而是需要在实际部署时考虑的工程问题。随着容器技术和云计算的普及，为智能体提供隔离的执行环境正变得越来越容易实现。

十、未来展望：技术发展的新方向

这项研究的意义远超出了技术细节本身。它首次系统性地证明了"宽度扩展"策略在计算机使用智能体领域的有效性。这为整个领域指出了一个新的发展方向：与其集中精力开发单一的超级智能体，不如专注于如何让多个智能体有效协作。

研究结果表明，即使使用相对简单的协作策略，也能取得显著的性能提升。这暗示着在这个方向上还有巨大的发展空间。未来的研究可能会探索更加复杂的协作机制，比如让智能体在执行过程中动态交换信息，或者根据任务特点自动选择最合适的智能体组合。

行为叙述生成的概念也为智能体的可解释性研究开辟了新路径。传统的智能体系统往往被视为"黑盒"，用户难以理解其决策过程。而行为叙述提供了一种将复杂操作序列转换为可理解故事的方法，这对于提高用户对AI系统的信任度具有重要意义。

从更广阔的视角来看，这项研究体现了AI发展的一个重要趋势：从追求单一系统的完美性转向重视系统间的协作与互补。这种思路不仅适用于计算机使用智能体，也为其他AI应用领域提供了有益启示。

说到底，这项研究最令人兴奋的地方在于它展示了一种全新的思考方式。与其试图创造一个能够完美处理所有任务的超级AI，研究团队选择了让多个相对简单的AI协同工作的路径。这种方法不仅更加现实可行，也更符合自然界和人类社会的运作规律。

归根结底，bBoN方法的成功证明了一个古老的智慧：团结就是力量。在AI发展的道路上，也许我们需要的不是独孤求败的武林高手，而是懂得团队合作的优秀团队。这项研究为我们构建真正实用的AI助手系统指出了一条充满希望的道路。对于那些期待AI能够真正帮助处理日常复杂任务的用户来说，这无疑是一个令人振奋的好消息。

研究团队的工作不仅在技术上取得了突破，更重要的是为整个领域提供了新的思维框架。随着这种方法的进一步发展和优化，我们有理由期待，在不久的将来，真正可靠、高效的AI电脑助手将走进千家万户，为人们的工作和生活带来实质性的改善。

Q&A

Q1：Behavior Best-of-N方法是什么？它是如何工作的？

A：Behavior Best-of-N(bBoN)是一种让多个电脑智能体协同工作的新方法。它的工作原理是让多个智能体同时尝试同一个任务，然后将每个智能体的复杂操作过程转换成简洁的"行为叙述"，最后通过专门的判断器比较这些叙述，选出最佳方案。这就像让多个员工同时处理同一项工作，然后选择做得最好的结果。

Q2：这种方法能提高多少性能？在哪些系统上测试过？

A：在OSWorld基准测试中，bBoN方法将成功率从传统方法的约60%提升到69.9%，接近人类72%的表现水平。研究团队还在Windows系统的WindowsAgentArena上取得了6.4%的性能提升，在Android系统的AndroidWorld上取得了3.5%的提升，证明了该方法的跨平台适用性。

Q3：普通用户什么时候能使用这种技术？有什么实际限制吗？

A：该技术目前还处于研究阶段，主要限制是需要虚拟机环境来支持多个智能体的并行运行。在实际应用中，多个智能体同时操作同一桌面可能会相互干扰，涉及在线共享资源的任务也可能产生冲突。不过随着容器技术和云计算的普及，这些技术障碍正在被逐步解决。

人工智能智能体协作计算机自动化

分享至