微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 这支来自AWorld团队的多智能体浏览器助手,让网页操作变得像团队协作一样智能

这支来自AWorld团队的多智能体浏览器助手,让网页操作变得像团队协作一样智能

2025-10-16 17:33
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-10-16 17:33 科技行者

当我们面对复杂的网页任务时,比如在电商网站上找到最便宜的商品,或者在论坛里找到特定的帖子,往往需要进行大量的点击、搜索和筛选操作。现在,一个名为Recon-Act的智能系统正在改变这种状况。这项由AWorld团队的何凯文、王志伟、庄晨宇和顾金杰等研究人员开发的成果,发表于2025年9月的arXiv预印本平台(论文编号:arXiv:2509.21072v1),为我们展示了一种全新的浏览器操作方式。

说起Recon-Act,我们可以把它想象成一个专业的网页操作团队。就像一个建筑工地需要不同职能的工人一样,这个系统也分为两个核心团队:侦察队和行动队。侦察队就像是工地上的勘探员,他们会先仔细观察环境,分析问题,然后制定工具和策略。行动队则像是实际施工的工人,他们使用侦察队提供的工具来完成具体的任务。

这个系统的最大特点是它能够"自我进化"。当系统在某个网站上遇到困难时,侦察队会分析失败的原因,然后开发出专门的工具来解决这类问题。这些工具会被存储起来,供后续遇到类似情况时使用。就好比一个经验丰富的工匠,每次遇到新的问题都会制作一个新工具,随着时间推移,工具箱里的工具越来越多,解决问题的能力也越来越强。

研究团队设计了一个六级发展路线图来逐步实现这个系统。目前他们已经达到了第三级,在这个级别下,除了分析师和工具管理员仍需要人工干预外,其他组件都可以由人工智能模型自动完成。在著名的VisualWebArena数据集上,Recon-Act取得了36.48%的成功率,超越了之前的所有自动化系统,虽然距离人类88.7%的表现还有差距,但已经是一个重大进步。

一、侦察队的工作原理

在Recon-Act系统中,侦察队扮演着至关重要的角色。我们可以把侦察队比作一个专业的调研团队,他们的工作就是深入了解问题的本质,然后为解决问题提供有针对性的方案。

侦察队由两个核心成员组成:分析师和程序员。分析师就像是一个经验丰富的侦探,当系统在执行任务时遇到失败,分析师会仔细对比成功和失败的操作轨迹,找出问题的根源。比如,当系统在购物网站上无法正确排序商品价格时,分析师会分析是因为找不到排序按钮,还是因为点击了错误的位置,或者是因为网页结构与预期不符。

程序员则负责将分析师的发现转化为实际可用的工具。这些工具被称为"通用工具",可以是简单的提示信息,也可以是复杂的自动化程序。继续以购物网站为例,如果分析师发现问题在于商品图片太小导致系统无法准确识别,程序员就会开发一个工具,自动将网页从列表视图切换到网格视图,让图片变大,提高识别准确率。

侦察队还配备了一套基础的侦察工具包,包括获取网页链接、截取图片、解析页面结构等功能。这些工具就像是侦探手中的放大镜和指纹识别器,帮助他们更好地理解网页环境。当遇到复杂问题时,侦察队会使用这些基础工具进行更深入的探索,收集更多信息来指导后续的工具开发。

整个侦察过程是一个循环往复的学习过程。系统会不断执行任务,收集成功和失败的案例,然后通过对比分析来发现新的解决方案。每当开发出新工具,系统就会在训练集上重新测试,验证工具的效果。如果工具能够提高成功率,就会被正式注册到工具库中,供后续任务使用。

二、行动队的协作机制

行动队是Recon-Act系统中负责实际执行任务的团队,可以把它想象成一个精密的施工队伍。这个队伍有三个关键角色:项目经理、工具管理员和执行工程师。

项目经理是整个行动队的指挥中枢,就像建筑工地上的工头一样。当接到用户的任务时,项目经理会仔细分析当前的网页环境和任务要求,然后决定使用哪种工具或者调用哪个团队成员。比如,当用户要求在Reddit论坛上给某个帖子点赞时,项目经理会识别出这是一个投票任务,然后选择合适的投票工具。

工具管理员扮演着库房管理员的角色,负责维护整个工具库。当侦察队开发出新工具时,工具管理员会决定是添加全新工具还是更新现有工具。这个决策过程需要考虑工具的功能重叠性和兼容性。为了避免工具之间的冲突,工具管理员会为每个工具添加条件逻辑,确保它们能在适当的情况下被调用,而不会干扰其他工具的正常运行。

执行工程师是行动队的最后一道保障,就像是一个全能的维修工。当其他工具都无法处理当前情况时,执行工程师会接手任务,生成基本的操作指令。这种设计确保了系统始终能够给出某种回应,不会因为缺乏合适的工具而完全卡住。

系统中的工具分为两种类型:提示型工具和决策型工具。提示型工具类似于经验丰富的顾问,它们会向执行工程师提供建议和指导,但最终的决策仍由执行工程师做出。决策型工具则更像是专业的自动化设备,它们会直接生成具体的操作指令,系统会立即执行这些指令而无需进一步处理。

在执行任务时,整个流程就像是一条高效的生产线。项目经理接收任务后,通过工具路由器选择合适的工具。如果选择的是提示型工具,系统会先运行该工具获取建议,然后让执行工程师基于这些建议生成最终操作。如果选择的是决策型工具,系统会直接执行工具输出的指令。每次操作后,浏览器环境会更新,为下一步操作提供新的上下文信息。

三、工具生成与进化机制

Recon-Act系统最令人印象深刻的特性是它的自我进化能力,这个过程就像是一个工匠不断改进自己的工艺和工具一样。整个进化过程建立在一个闭环的学习机制之上,数据、工具、行动和反馈形成了一个完整的循环。

系统的进化从对比学习开始。当行动队执行任务失败时,侦察队会将失败的操作轨迹与成功的操作轨迹进行详细对比。这种对比不是简单的表面比较,而是深入到每个操作步骤的分析。比如,在分类广告网站上搜索商品时,如果系统无法正确按价格排序,分析师会发现成功轨迹中使用了特定的排序功能,而失败轨迹中要么没有找到这个功能,要么使用了错误的方法。

基于这种对比分析,系统会抽象出通用的解决方案。这些解决方案被统一封装为"通用工具",可能是简单的操作提示,也可能是复杂的自动化程序。所有工具都遵循统一的接口标准:它们接受一组标准化的参数,返回字符串格式的结果。这种设计避免了为每个任务单独定制参数的复杂性,大大简化了系统的维护工作。

工具的注册过程体现了系统的智能化特点。当新工具被开发出来时,工具管理员会评估它与现有工具的关系。如果功能相似,系统会选择更新现有工具而不是创建新工具。更新过程使用条件逻辑来扩展工具功能,确保新功能不会影响工具在其他场景下的表现。

研究团队目前已经开发出11个专用工具,涵盖了三个主要网站类型的典型操作。在分类广告网站上,有专门的价格排序工具;在Reddit论坛上,有投票工具、作者查找工具和子版块导航工具;在购物网站上,有类别导航工具、图片搜索工具和价格排序工具。每个工具都针对特定网站的特殊需求进行了优化。

值得注意的是,系统在开发工具时会特别考虑网站的独特性。不同网站有不同的页面结构和交互方式,同样的功能在不同网站上可能需要完全不同的实现方法。因此,每个工具都明确标注了它适用的网站类型和使用条件,避免在错误的环境中被调用。

整个进化过程是增量式的。系统不会一次性开发所有需要的工具,而是根据遇到的问题逐步扩展工具库。这种方式确保了每个工具都是针对实际需求开发的,避免了不必要的复杂性。随着系统处理的任务类型增多,工具库也会相应地丰富和完善。

四、实验结果与性能表现

在VisualWebArena这个具有挑战性的基准测试中,Recon-Act展现出了令人瞩目的性能。这个测试包含约910个查询任务,涵盖分类广告、购物网站和Reddit论坛三个主要领域,要求系统能够理解视觉内容并执行复杂的多步骤操作。

从整体表现来看,Recon-Act达到了36.48%的成功率,超越了之前最好的自动化系统2.74个百分点。这个提升看似不大,但在这样一个高难度的测试中,每一个百分点的提升都代表着巨大的技术进步。相比于早期的方法,Recon-Act的改进幅度通常超过10%,显示出其设计理念的优越性。

在不同领域的表现上,Recon-Act展现出了均衡的能力。在购物网站任务中,系统达到了39.27%的成功率,比之前的最佳成果提高了6.97%,这是一个相当显著的进步。在分类广告和Reddit论坛任务中,虽然略低于当前最好的系统,但差距很小,分别只有1.68%和1.56%。这种均衡的表现表明,Recon-Act的设计具有良好的通用性,不会在某个特定领域特别弱势。

从执行效率的角度来看,Recon-Act展现出了稳定的操作风格。系统平均需要4.9步完成任务,这个数字处于合理范围内,既不会因为步骤过少而显得草率,也不会因为步骤过多而显得低效。更重要的是,系统很少需要进行自我纠错操作,说明它的决策质量较高,大多数操作都是有效的。

研究团队特别强调了他们的训练方法的高效性。与一些依赖大规模随机探索的方法不同,Recon-Act使用了精心策划的小规模训练集,每个领域不超过10个示例。这种方法避免了数据冗余问题,同时确保了训练质量。研究团队认为,随机漫步式的探索往往会产生大量重复和低质量的数据,这与他们追求效率和精确性的目标不符。

在系统架构方面,当前的Level 3配置显示出了人机协作的有效性。虽然分析师和工具管理员仍需要人工参与,但程序员、项目经理和执行工程师已经可以由大型语言模型驱动。这种混合架构在保证系统性能的同时,也为未来的完全自动化奠定了基础。

值得注意的是,与人类88.7%的表现相比,Recon-Act仍有很大的改进空间。这个差距反映了当前人工智能系统在理解复杂视觉内容和执行多步骤推理方面的局限性。不过,考虑到这是一个全新的研究领域,Recon-Act的表现已经为未来的发展指明了方向。

五、技术创新与发展路线

Recon-Act的技术创新主要体现在其独特的"侦察-行动"双团队协作模式和工具中心的进化机制上。这种设计理念的核心思想是将信息收集与任务执行分离,让专门的团队负责专门的工作,然后通过工具这个桥梁实现知识的传递和积累。

系统的六级发展路线图展现了研究团队的清晰愿景。第一级是完全人工操作的基准线,只有执行工程师使用人工智能。第二级引入了视觉语言模型来驱动项目经理和执行工程师。第三级是当前已实现的配置,程序员也加入了人工智能驱动的行列。第四级将进一步自动化分析师,第五级实现所有组件的人工智能化,最终的第六级目标是开发一个端到端的统一模型。

每个级别的推进都面临着不同的技术挑战。当前从第三级向更高级别发展的主要障碍在于推理和编程能力的提升。分析师需要具备强大的分析推理能力,能够从复杂的操作轨迹中抽取有价值的模式。工具管理员则需要具备代码理解和集成能力,能够处理工具之间的复杂依赖关系和版本管理问题。

在工具设计方面,系统采用了统一的接口标准,所有工具都接受相同的参数集合并返回标准格式的结果。这种设计虽然可能在某些特定场景下不够精确,但大大简化了工具的开发和维护工作。研究团队认为,这种权衡是值得的,因为它降低了系统的复杂度,提高了可扩展性。

系统的另一个重要创新是硬编码的工具路由机制。在推理阶段,为了确保工具调用的准确性和系统的泛化能力,研究团队添加了这种机制来辅助项目经理的决策。虽然这在一定程度上限制了系统的灵活性,但提高了执行的可靠性,这在实际应用中是一个重要考虑。

在侦察工具方面,系统配备了一套基础的网页分析工具,包括URL获取、图像捕获和页面结构解析等功能。这些工具为更高级的分析提供了基础能力。当遇到新的挑战时,侦察队可以组合使用这些基础工具来收集必要的信息,为新工具的开发提供数据支持。

研究团队特别注重工具的网站特异性设计。他们发现,不同网站的交互模式差异很大,通用的解决方案往往效果不佳。因此,每个工具都明确标注了适用的网站类型和使用条件。这种设计确保了工具在正确的环境中被调用,避免了跨网站使用时可能出现的问题。

六、挑战与未来发展方向

尽管Recon-Act取得了显著的进展,但研究团队也清醒地认识到当前系统面临的挑战和局限性。这些挑战主要集中在三个方面:自主性提升、推理编程能力增强,以及侦察能力的扩展。

在自主性方面,当前系统的学习能力很大程度上依赖于人工构建的训练数据,特别是需要成功操作轨迹作为参考。这种依赖使得训练过程类似于"监督学习",限制了系统的自主探索能力。为了解决这个问题,研究团队计划引入随机漫步式的自主探索机制,让系统能够在环境中独立生成更多的成功轨迹,从而减少对人工数据的依赖。

推理和编程能力的提升是实现更高自动化级别的关键。目前的分析师需要具备强大的分析推理能力,能够从复杂的操作轨迹中识别问题模式并提出解决方案。这不仅要求模型能够理解任务相关的信息,还要能够考虑如何降低任务难度,使其更适合大型模型处理。比如,在分类广告网站上,当图像定位步骤经常选择错误边界框时,系统应该能够发现从列表视图切换到网格视图可以放大缩略图,从而减少视觉理解的难度。

工具管理方面的挑战主要体现在代码分支管理和迭代修改的复杂性上。当系统需要为现有工具添加新功能时,必须确保新功能不会影响工具在其他场景下的表现。这需要精确的条件逻辑设计和版本控制机制。另外,当前的项目经理在工具调用时仍有一定的错误率,通过合并相似工具的功能来减少工具数量,可能是一个有效的解决方案。

侦察能力的扩展是系统适应更广泛网络环境的关键。目前的侦察模块只在固定的几个网站上表现良好,还没有泛化到更异构的网络环境中。不同网站的结构差异、交互模式差异和视觉设计差异都对系统的适应能力提出了挑战。研究团队需要开发更强大的网页理解和适应机制,使系统能够快速适应新的网站环境。

在技术路线方面,研究团队提出了几个具体的改进方向。首先是收集更多针对性的分析数据,训练分析师在不同浏览器环境中获得robust的上下文感知分析能力。其次是通过类似的目标训练来增强工具管理员的编程能力,特别是在处理分支逻辑和版本控制方面。最后是扩展基础侦察工具的范围和能力,使其能够处理更多类型的网页结构和交互模式。

从长远来看,研究团队的最终目标是实现第六级的端到端模型,这将是一个能够独立完成所有浏览器操作任务的统一系统。虽然这个目标还很遥远,但Recon-Act已经为这个方向奠定了重要的基础,证明了工具中心的进化方法在复杂环境中的可行性。

说到底,Recon-Act代表了人工智能在网页操作领域的一个重要进步。它不仅在技术性能上取得了突破,更重要的是提出了一种全新的系统设计理念。这种将侦察与行动分离、通过工具实现知识积累的方法,可能会对整个智能代理领域产生深远影响。虽然距离完全替代人工操作还有很长的路要走,但Recon-Act已经向我们展示了未来智能浏览器助手的可能形态。对于普通用户来说,这意味着将来我们可能只需要用自然语言描述需求,就能让AI帮我们完成复杂的网页操作任务,大大提高我们的工作效率和生活便利性。

Q&A

Q1:Recon-Act是什么?它是如何工作的?

A:Recon-Act是由AWorld团队开发的智能浏览器操作系统,它就像一个专业团队,分为侦察队和行动队两部分。侦察队负责分析网页操作中的问题并开发解决工具,行动队负责使用这些工具执行具体任务。系统最大的特点是能够自我进化,遇到新问题时会开发新工具并存储起来。

Q2:Recon-Act的成功率有多高?比人类操作差多少?

A:在VisualWebArena测试中,Recon-Act达到了36.48%的成功率,超越了之前最好的自动化系统2.74%。虽然与人类88.7%的表现还有较大差距,但已经是这个领域的重大突破。在购物网站任务中表现最好,达到39.27%的成功率。

Q3:普通人什么时候能用上Recon-Act这样的浏览器助手?

A:目前Recon-Act还处于研究阶段,团队已经实现了六级发展计划中的第三级,仍需要一定程度的人工干预。要实现完全自动化还需要在推理能力、编程能力和网站适应性方面继续改进。预计未来几年内可能会有类似技术的商业化应用出现。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-