微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

WebChoreArena：东京大学研究团队推出更具挑战性的网页代理任务评估基准

人工智能网页代理基准测试

WebChoreArena：东京大学研究团队推出更具挑战性的网页代理任务评估基准

作者：科技行者

2025-06-05 15:25

分享至：

东京大学研究团队开发的WebChoreArena是一个全新的网页代理评估基准，它包含532个精心设计的任务，专注于测试AI代理处理繁琐、复杂网页任务的能力。研究结果显示，即使是最先进的语言模型（如Gemini 2.5 Pro）在这些挑战性任务上的表现也比常规任务降低了约14个百分点，证明了这一基准有效区分了不同模型的能力。WebChoreArena通过设计海量记忆、计算、长期记忆等类型的任务，为评估AI代理在实际应用场景中的表现提供了更严格的标准。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-05 15:25 • 科技行者

这项由东京大学的Atsuyuki Miyai、Zaiying Zhao、Kazuki Egashira、Atsuki Sato、Tatsumi Sunada、Shota Onohara、Hiromasa Yamanishi、Mashiro Toyooka、Kunato Nishina、Ryoma Maeda以及Kiyoharu Aizawa和Toshihiko Yamasaki教授共同完成的研究，于2025年6月2日以预印本形式发布在arXiv平台（arXiv:2506.01952v1 [cs.CL]），研究成果及相关资源可通过https://webchorearena.github.io/获取。

一、网页代理：人工智能的新使者

想象一下，当你面对一堆繁琐的网页任务时，比如整理订单数据、计算多个产品的评分，或者在社交媒体上查找特定内容，通常需要耗费大量时间和精力。如果有一个"数字助手"能替你完成这些工作，是不是会让生活轻松许多？这正是"网页代理"（web browsing agent）的目标。

网页代理是由大型语言模型（LLM）驱动的人工智能系统，它们能像人类一样操作网页浏览器，点击按钮、填写表单、阅读内容并作出决策。与普通编程方式相比，网页代理的优势在于它能直接与任何网页界面交互，不需要专门的API（应用程序接口），而且整个操作过程对人类来说非常透明，容易理解和监督。

随着科技的发展，这些网页代理变得越来越聪明，能够顺利完成常规的网页浏览任务。但这引发了一个关键问题：它们能否超越基础浏览，处理那些更复杂、更繁琐，甚至是人类自己都不愿做的"网页杂务"呢？

二、从WebArena到WebChoreArena：挑战升级

在网页代理的评估领域，WebArena已经成为了一个公认的标准测试平台。它提供了四个模拟网站：电子商务平台（OneStopShop）、社交论坛（Reddit）、协作软件开发平台（GitLab）和在线数据管理系统（在线商店管理）。许多研究者和公司都用它来测试自己开发的网页代理。

然而，随着大型语言模型的进步，WebArena暴露出两个主要局限性：

首先，它的任务主要集中在普通的网页浏览上。当AI模型变得更强大时，这些基础任务已经不足以准确测量它们的能力极限。

其次，WebArena中的一些任务存在模糊的指令或评估错误。当代理性能较低时，这些问题影响不大，但随着代理能力的提高，这些缺陷限制了测试平台能够准确评估的上限。

为了解决这些问题，东京大学的研究团队开发了WebChoreArena，一个基于WebArena但更具挑战性的测试平台。想象一下，WebArena就像是驾驶考试中的基础路考，而WebChoreArena则相当于高级路考，包含了更复杂的路况和驾驶技巧测试。

三、WebChoreArena的核心设计：模拟真实世界的繁琐任务

WebChoreArena包含532个精心设计的任务，这些任务可以分为四大类：

**海量记忆任务**：这类任务要求代理能够准确记住大量的观察信息。想象你走进一个装满商品的仓库，需要记住每个商品的位置、价格和库存数量，然后根据这些信息回答问题。例如，代理需要从产品分类页面收集所有评论分数，这需要它能够提取和保留页面上的全部必要信息。

**计算任务**：这类任务需要代理基于之前观察到的内容进行数学推理。就像你需要计算购物清单上所有商品的总价一样。在一个具体例子中，代理需要追踪并求和论坛中前40个帖子的评论数量，这考验了它执行算术运算的能力。

**长期记忆任务**：这类任务要求代理能够在多个网页之间保持长期记忆和推理。就像你需要先查看菜谱，了解所需食材，然后去超市购物，回家后还能记得所有步骤一样。例如，代理需要先从一个页面检索定价规则，然后在与订单页面交互时应用这些规则，这测试了它在多次导航后记忆和正确使用先前信息的能力。

**其他特殊任务**：这类任务涉及不常见或特定于某些网站的操作，比如在GitLab中分配标签。这些问题测试代理处理不常见UI元素或操作的能力。

这些任务跨越了四个网站：购物平台（Shopping）、购物管理系统（Shopping Admin）、社交论坛（Reddit）和协作开发平台（GitLab），还包括需要在多个网站之间导航的跨站任务。每个任务都经过了精心设计，以确保它们既有现实意义，又具有适当的挑战性。

四、精心打造的测评系统

为了确保测评的公平性和有效性，研究团队投入了大量精力来构建和完善WebChoreArena：

研究团队为每个模拟网站分配了三名注释员（从作者中选择），其中一名注释员被分配到所有四个网站，以确保不同网站之间任务质量的一致性。总共有十名注释员参与了任务创建过程。

注释员首先会探索网站，熟悉内容和功能，然后根据特定标准制定任务。他们特别强调了以下几点：

首先是专注于记忆密集型分析任务。现实世界中常见但在现有基准测试中未得到充分代表的任务类型。为避免过于简单的任务，团队使用基于Claude的代理对早期任务进行了评估，以识别模型的局限性并完善任务设计。

其次是减少任务规范和评估中的歧义。虽然处理模糊指令对于现实世界中的代理很重要，但为了可靠的评估，团队优先考虑了明确的可评估性。在WebArena中，模糊的指令常常导致代理产生的合理答案被错误地标记为失败。

第三是基于模板的任务构建和扩展。注释员创建任务模板并将其扩展为多个任务实例，每个变量都有多个实例化。这种设计使得评估更加稳健和系统化。

总共创建了117个任务模板：购物网站25个，购物管理29个，Reddit 20个，GitLab 28个，跨站任务15个。平均每个模板产生了约4.5个任务实例。

为确保每个任务的质量和正确性，团队进行了交叉检查，每个网站有三名注释员参与。由于许多歧义只有在实际任务执行过程中才会显现，团队进行了多轮推理、错误分析和修订。这个注释过程既细致又耗时，总共花费了300多小时的精心完善。

五、评估方法：如何判断AI的表现

评估网页代理的表现不是一件简单的事情。想象一下，如果让不同的老师用不同的标准来评判学生的答案，结果很可能会不一致。为了确保评估的一致性和公平性，WebChoreArena采用了三种主要的评估指标：

**文本匹配（string_match）**：这种方法用于评估代理输出的文本是否符合预期。它又分为三类： - 精确匹配（exact_match）：只有当输出与标准答案完全一致时，才算成功。 - 必须包含（must_include）：只要标准答案包含在输出中的任何位置，就算成功。 - 模糊匹配（fuzzy_match）：利用语言模型（在实现中使用GPT-4o）来评估输出是否在语义上等同于标准答案。

**网页交互评估（program_html）**：这种方法验证代理的操作是否在网页上产生了预期的状态变化。具体来说，会从代理操作后的网页上指定元素中提取信息，并与标准答案进行比较，以确定功能上的正确性。

通过这些评估方法，研究人员可以全面评估网页代理在不同类型任务上的表现，从而更准确地了解它们的能力和局限性。

六、实验设置：各路AI选手的较量

为了全面评估不同语言模型在WebChoreArena上的表现，研究团队选择了三个代表性的大型语言模型（LLM）：

**GPT-4o**：这是学术研究中常用的代表性语言模型，由OpenAI开发。

**Claude 3.7 Sonnet**：这是Anthropic公司开发的一款先进的大容量语言模型。

**Gemini 2.5 Pro**：这是Google开发的最新一代大型语言模型，拥有强大的推理能力。

这些语言模型被用于两个先进的网页代理系统中进行测试：

**AgentOccam**：这是一个专为WebArena基准测试设计的代理，它采用了经过优化的观察和行动空间，以更好地与语言模型的预训练数据保持一致。此外，它还采用了支持分支和剪枝的规划策略，允许代理生成替代计划，并根据中间结果消除次优计划，从而实现更高效、更适应性强的决策过程。

**BrowserGym**：这是一个统一、可扩展的环境，用于在各种基准测试中开发和评估网页代理，具有标准化的观察和行动空间。

这些不同组合的测试让研究人员能够全面了解各种模型和代理系统在复杂网页任务上的能力差异。

七、实验结果：新旧基准下的AI表现对比

实验结果展示了令人深思的发现。首先，让我们看看各个模型在WebArena和WebChoreArena上的整体表现：

在WebArena上，使用AgentOccam代理时，GPT-4o达到了42.8%的准确率，Claude 3.7 Sonnet达到了52.0%，而Gemini 2.5 Pro达到了54.8%。使用BrowserGym代理时，GPT-4o达到了36.4%，Claude 3.7 Sonnet达到了51.5%，Gemini 2.5 Pro达到了59.2%。

相比之下，在更具挑战性的WebChoreArena上，所有模型的表现都有显著下降：

使用AgentOccam代理时，GPT-4o的准确率仅为6.8%（相比WebArena下降了36.0个百分点），Claude 3.7 Sonnet为23.5%（下降28.5个百分点），Gemini 2.5 Pro为37.8%（下降17.0个百分点）。

使用BrowserGym代理时，GPT-4o的准确率仅为2.6%（下降33.8个百分点），Claude 3.7 Sonnet为23.1%（下降28.4个百分点），Gemini 2.5 Pro为44.9%（下降14.3个百分点）。

这些结果带来了几个关键发现：

**GPT-4o在WebChoreArena上表现挣扎**：虽然GPT-4o在WebArena上表现尚可，但在更具挑战性的WebChoreArena上表现显著下降，这表明WebChoreArena确实提供了更严峻的挑战，需要更先进的语言模型才能应对。

**最新的语言模型虽有进步但仍有很大提升空间**：随着语言模型的演进，如Claude 3.7 Sonnet和Gemini 2.5 Pro，在WebChoreArena上的表现有所提高，但即使是最先进的Gemini 2.5 Pro，相比于WebArena，在WebChoreArena上仍有显著的性能下降，这表明即使是最先进的模型在处理更复杂的网页任务时仍有很大的提升空间。

**WebChoreArena能更清晰地测量模型性能差异**：与WebArena相比，WebChoreArena能够更清晰地展示不同模型之间的性能差异。在WebArena上，BrowserGym的性能范围从GPT-4o的36.4%到Gemini 2.5 Pro的59.2%，而在WebChoreArena上，这一范围从GPT-4o的2.6%扩大到Gemini 2.5 Pro的44.9%，提供了更广阔的评估谱系，有助于模型开发者和评估者更清晰地了解各个模型的优势和劣势。

**WebChoreArena能进行细粒度的任务类型分析**：通过对不同任务类型的性能分析，研究发现代理架构（不仅仅是语言模型的类型）对不同类型任务的性能有显著影响。例如，Gemini 2.5 Pro在BrowserGym中对海量记忆任务表现最佳，而AgentOccam在这一类别中表现最差。这种差异可归因于它们在记忆管理策略上的根本差异。

八、深入分析：不同模态和工具的影响

研究团队还进行了一系列额外的分析，以更深入地了解不同因素对代理性能的影响：

**输入模态的影响**：研究者调查了输入数据模态（即文本和图像）对代理性能的影响。主要实验主要使用基于文本的输入（即可访问性树），以减轻视觉幻觉，只有三个模板需要图像输入。然而，分析如何在加入图像输入时性能变化提供了重要见解。

研究发现，加入图像输入通常会导致整体性能下降。特别是购物等某些网站类别在包含视觉信息时表现出显著的性能变化。进一步的分析表明，对于需要仅文本信息的任务（即视觉和文本信息之间存在差距的情况），特别是对于Gemini这样的模型，表现出明显的性能下降。因此，探索如何在减轻幻觉的同时利用视觉信息代表了未来研究的一个关键方向。

**工具使用的影响**：研究者还调查了使用外部工具，特别是计算器，是否能增强代理性能。为此，他们使用了WebArena团队开发的基于网络的计算器，该计算器提供了基于GUI的界面，允许代理无缝执行算术运算。他们明确给代理以下指令："如果你需要进行一些计算，可以使用位于<计算器URL>的计算器。"

从WebChoreArena中提取了215个特定于计算的任务来评估工具使用的有效性。结果显示，整体性能基本保持不变。主要原因是模型很少尝试使用工具。在215个任务中，使用工具的任务数量不到总数的28%。代理似乎更喜欢直接解决问题，因为当它们认为问题可以自行解决时，直接解决比使用工具更高效。因此，研究发现仅仅使用计算器工具并不一定能提高WebChoreArena的性能。

九、错误分析：AI的常见失误

为了更好地理解现有系统的局限性，研究团队详细分析了Gemini 2.5 Pro（与BrowserGym结合）的失败案例，并识别了几种常见的错误类型：

**计数错误**：在海量记忆任务中，虽然代理能够准确计数单个网页内的项目，但当任务需要在多个页面之间导航和汇总信息时，它们常常遇到困难并犯下计数错误。

**计算错误**：研究没有观察到在简单的加法或乘法任务中的错误。然而，当Gemini 2.5 Pro需要加或乘十五个以上的数字时，明显开始更频繁地出现计算错误。

**忽略指令**：研究观察到几个指令被忽视的实例。例如，代理有时会忽略只选择"超过5条评论"的产品的指令，或未能遵循指定的输出格式。

**操作错误**：还观察到一些操作错误。例如，代理有时无法记住其先前的操作。在一个案例中，它成功到达第二页，但错误地认为自己仍在第一页，导致它不必要地导航到另一页。

**其他错误**：其他错误包括列出不存在的产品，过早结束搜索而不检查所有页面，以及在中途退出复杂搜索以尝试更快的方法，但迷失方向无法完成任务。

这些分析为未来改进网页代理提供了宝贵的见解，指出了需要重点关注的几个关键领域。

十、总结与展望：测评平台的意义与限制

WebChoreArena作为一个全新的基准测试平台，为评估网页代理在复杂、繁琐任务上的能力提供了更加严峻的挑战。这项研究不仅展示了现有技术的进步，也揭示了未来研究的方向。

**研究的局限性**：首先，这项工作主要贡献在于构建基准测试，并没有专注于开发新方法。基于研究发现设计新方法是未来研究的关键方向。

其次，实验是在模拟的网络环境中进行的，虽然这确保了完全的可重复性，同时也接近真实网站，但仍可能存在一定差距。开发WebChoreArena的在线扩展是进一步与真实环境对齐同时保持可重复性的重要下一步。