微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

WEB-SHEPHERD：让网络代理更智能的过程奖励模型

网络代理过程奖励模型人工智能助手

WEB-SHEPHERD：让网络代理更智能的过程奖励模型

作者：科技行者

2025-05-27 11:35

分享至：

这项研究介绍了WEB-SHEPHERD，这是首个专为评估网络导航轨迹设计的过程奖励模型。延世大学和卡内基梅隆大学的研究团队创建了包含40K步级别注释的WEBPRM COLLECTION数据集和WEBREWARDBENCH评估基准。实验表明，WEB-SHEPHERD在评估基准上比GPT-4o高出约30个百分点，并且在WebArena-lite上使用时，性能提升了10.9个百分点，同时成本降低了10倍。这一创新模型通过结构化清单将高级用户指令分解为可解释的子目标，为构建更可靠、更经济的网络代理奠定了基础。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-27 11:35 • 科技行者

基本信息与研究概述

如果你曾经想过让电脑自动帮你完成网页上的重复性任务，那么这项研究绝对值得你关注。来自韩国延世大学和美国卡内基梅隆大学的研究团队最近发布了一项突破性研究——WEB-SHEPHERD（网络牧羊人），这是第一个专门为评估网络导航轨迹而设计的过程奖励模型。这项研究发表于2025年5月，目前正在审阅中，有兴趣深入了解的读者可以通过arXiv:2505.15277v1查阅完整论文。

想象一下，如果你需要每天在亚马逊上查询不同产品的价格、在航空公司网站上检查航班信息，或者在社交媒体上执行重复性操作。这些任务不仅耗时，而且枯燥乏味。这正是网络代理（Web Agents）试图解决的问题：让AI自动完成这些任务。但问题在于，目前的网络代理往往不够可靠，经常在遇到微小问题时表现得很笨拙，比如反复输入相同的查询，最终导致任务失败。

研究团队指出，这种不可靠性主要源于网络导航的长期规划性质。想象你在一个陌生的城市没有地图，需要找到一家特定的餐厅。你需要规划多个步骤，可能要询问路人、辨认路标、调整路线等。同样，AI在网页上导航时也需要规划多个步骤并保持目标导向，这对大型语言模型来说是个挑战。

为了解决这个问题，研究人员开发了WEB-SHEPHERD，这是一个专门用于评价网络代理行为的"过程奖励模型"(PRM)。如果把网络代理比作一个迷途的旅行者，那么WEB-SHEPHERD就像一个经验丰富的向导，在每一步都能告诉旅行者："是的，你走对了方向"或"不，你需要转向"。

与之前研究不同的是，以往的方法通常依赖于昂贵的大型多模态语言模型（如GPT-4o）来评估代理的行为，这不仅成本高昂（在WebArena的812个查询上使用GPT-4o进行树搜索大约需要14,000美元），而且处理速度慢（在一块A100上运行推理需要40小时）。WEB-SHEPHERD提供了一个更经济、更快速的替代方案，同时还表现得更好。

研究创新点与主要贡献

研究团队的贡献不仅限于创建WEB-SHEPHERD模型，他们还构建了完整的数据集和评估基准，为网络导航领域的奖励模型研究奠定了基础。

首先，他们创建了WEBPRM COLLECTION，这是一个包含40,000多个步级别偏好对的大规模数据集。想象一下，这就像一本详细的旅行指南，不仅告诉你最终目的地在哪里，还详细记录了每一个路口应该怎么走，哪条路是对的，哪条路是错的。这个数据集涵盖了各种不同领域和难度级别的任务，并且每个任务都配有一个注释清单，明确列出了完成任务所需的关键步骤。

其次，他们引入了WEBREWARDBENCH，这是首个专门用于评估网络导航奖励模型的元评估基准。如果把奖励模型比作旅游向导，那么这个基准就像是一个考核向导能力的标准测试，确保他们真的懂得如何指导旅行者。

在实验中，研究团队发现WEB-SHEPHERD在WEBREWARDBENCH上的表现比使用GPT-4o好约30个百分点。这就像是一个本地向导比一个只看过旅游书的外地人更了解城市的每一条街道。更令人印象深刻的是，当在WebArena-lite测试中使用GPT-4o-mini作为策略，而WEB-SHEPHERD作为验证器时，性能比使用GPT-4o-mini作为验证器提高了10.9个百分点，而成本却减少了10倍。

这项研究的创新点在于，它将网络导航任务分解为清晰的子目标清单，然后评估代理在每一步是否朝着这些子目标前进。就像一个好的导游会把复杂的城市之旅分解成易于理解的部分："首先我们去这个地标，然后参观那个博物馆，最后到这家餐厅吃饭"。这种结构化的方法使得WEB-SHEPHERD能够提供更精确、更有用的反馈。

过程奖励模型的重要性

为什么研究团队特别强调"过程"奖励模型，而不是"结果"奖励模型呢？这个区别非常关键。

想象你在教一个孩子学习烹饪。如果你只关注最终结果（食物是否好吃），那么当出现问题时，孩子可能不知道错在哪里。但如果你在整个烹饪过程中提供指导（"现在应该先切菜"，"火候有点大了"），孩子就能及时调整并学习得更好。

在网络导航中，这种区别更为重要。研究团队解释说，与其他领域不同，网络导航中的结果奖励模型无法集成到测试时间算法中。例如，在数学问题上，AI可以写出多个解决方案，然后结果奖励模型可以选择一个最佳方案。但在网络导航中，如果AI尝试了八次预订飞机票，飞机票是不能退款的，所以必须在过程级别做出关于采取哪个行动的决策。

此外，在训练时，过程奖励模型能提供更细粒度的奖励信号，这比结果奖励模型更可靠。想象你在学习开车，教练只在最后告诉你"通过了"或"没通过"，和教练在每个路口、每次变道时都给你反馈，哪种学习效果更好？显然是后者。

WEB-SHEPHERD采用了结构化的清单，将高级用户指令明确分解为清晰、可解释的子目标。通过参考这个清单作为评估标准，WEB-SHEPHERD能够准确评估步级别的进度，从而在代理轨迹中提供精确和稳健的指导。

WEBPRM COLLECTION数据集的构建

为了训练WEB-SHEPHERD，研究团队首先需要构建一个高质量的数据集。这个过程就像是收集一本详尽的旅游指南，记录了各种各样的旅程，包括哪些路是对的，哪些是错的。

他们的目标是收集一个包含(I, O, C, A+, A-)的数据集，其中I是用户指令，O是观察结果序列，C是清单，A+是选择的动作序列（即专家轨迹），A-是拒绝的动作序列。

首先，研究团队从人类专家那里收集用户指令I和选择的动作A+。他们从Mind2Web使用的网站池中选择了可以通过playwright访问的网站。在注释之前，所有注释者参加了一个三小时的培训课程，以熟悉注释工具并理解人类和代理浏览行为之间的差异。

之后，收集的所有数据都由10名人类评估者审核，以确保质量和一致性。在这个过程中，他们过滤掉了无法复现的无效轨迹，以及容易误解的模糊指令。注释者被指示制作跨越三个难度级别的指令I：简单、中等和困难。

接下来，研究团队构建了粗粒度的清单，这些清单强调有意义的任务进展，而不是精确的执行步骤。例如，像"过滤A"和"过滤B"这样的细粒度动作被抽象为更高级别的子目标，如"过滤"。这种抽象使模型能够泛化到语义上等效的策略。给定指令I和专家轨迹A+，他们使用GPT-4o生成子目标分析和相应的清单。

为了收集被拒绝的动作a-，研究团队从各种策略中采样5个候选动作，并选择那些与专家动作a+不同的动作。然而，其中一些替代方案可能对应于有效但不同的朝向任务完成的动作。为了最小化这种情况，他们应用了基于规则的过滤，并为每个专家动作a+收集最多五个被拒绝的动作a-。

最终的数据集展示了随着难度级别增加，代理轨迹的长度和清单子目标的数量也增加。简单任务通常需要较少的步骤（中位数约5步），而中等任务显示出更多的变异性（中位数约9步），困难任务涉及明显更长的轨迹（中位数约20步），有些甚至超过40步。这表明他们的难度注释有效地反映了复杂性和所需的交互深度。

WEB-SHEPHERD模型的设计与工作原理

WEB-SHEPHERD就像一个经验丰富的导游，不仅知道最终目的地在哪里，还能在旅程的每一步提供指导。它的工作分为两个关键步骤：清单生成和基于清单的奖励预测。

第一步是清单生成。当给定一个用户指令I时，WEB-SHEPHERD会生成一个清单C，这个清单由一系列自然语言子目标(g1, g2, ..., gk)组成。这就像是将一次复杂的城市之旅分解为几个关键景点："首先参观这个博物馆，然后去那个公园，最后到这家餐厅"。这个清单随后成为奖励预测的基础，使WEB-SHEPHERD能够追踪朝向目标的进度。

第二步是基于清单的奖励建模。研究团队选择了下一个标记预测作为学习目标，以利用多模态大型语言模型的内部推理能力。他们优化了针对由反馈F和判断J连接形成的目标的语言建模损失，将整个序列视为一个连贯的响应。

具体来说，给定一个由清单C、观察o和回答a组成的输入，模型被训练成以自回归方式生成相应的反馈和判断。损失函数定义为：

LNTP = -∑t log Pθ(yt | y<t, C, o, a)

其中y = [F; J]表示连接的反馈和判断标记。这个目标鼓励模型学习基于清单评估轨迹，进行推理并提供解释评估的有价值反馈。

由于奖励是通过标记生成预测的，输出位于离散空间中。为了获得连续的奖励信号，可以采用几种映射策略。一种方法是采样多个输出序列并计算平均奖励。或者，研究团队采用了一个verbalized（语言化器），使用来自LM头的logits来估计标签标记（例如，"Yes"，"No"和"In Progress"）上的软概率。

在推理时，WEB-SHEPHERD生成反馈F ~ P(·|I, C, o, a)并使用"Yes"和"In Progress"标记的概率计算每个清单项的奖励：

rk(o, a) = (1/L) ∑L_l P("Yes"|I, C, o, a, F) + 0.5 × P("In Progress"|I, C, o, a, F)

其中L表示清单的数量，rk是分配给第k个响应的分数。最终奖励计算为平均值：r(o, a) = ∑K_k=1 rk(o, a)。

实验结果与评估

研究团队进行了全面的实验，专注于在为网络代理分配过程级别奖励方面的有效性，既关注奖励分配的准确性，也关注这些奖励在提高代理性能方面的实用性。

首先，他们创建了WEBREWARDBENCH，这是一个直接测量预测奖励准确性的基准。为了构建一个可靠的基准来评估PRMs，他们遵循了Kim等人的设置，收集了偏好对(ot, a+_t, {a-_(t,i)}^4_i=1})，其中每个观察ot都配对了一个选择的动作和四个被拒绝的动作。此外，他们为每个任务提供了参考清单，以确保公平和一致的评估。

他们使用三个指标评估过程奖励预测：(1)平均倒数排名(MRR)：在按预测奖励排序的所有候选动作列表中，首选动作的倒数排名的平均值；(2)步骤准确率(Acc. step)：模型为首选动作a+_t分配最高预测奖励的步骤比例；(3)轨迹准确率(Acc. traj)：模型在每个步骤中将a+排在候选动作中最高位置的完整轨迹比例。

研究发现，当前最先进的多模态大型语言模型在为网络导航任务分配可靠奖励方面存在困难。这种限制在轨迹准确率指标中特别明显。在这个指标中，模型经常无法在单个任务内的每个时间步骤一致地分配正确的奖励。相比之下，WEB-SHEPHERD在所有基准设置中显著优于所有基线，表现出显著的性能差距。

清单允许可靠的奖励分配。实验表明，基线和研究团队的模型在分配奖励时都显著受益于清单。清单导致奖励分配更准确和一致，如所有基线的轨迹准确率提高所证明的。这些结果表明，清单作为有价值的指导，帮助模型在预测过程奖励时保持连贯性。

有趣的是，多模态输入并不总是提高性能；在某些情况下，使用多模态输入甚至会降低性能。例如，当使用GPT-4o作为奖励模型时，他们在Mind2Web的跨网站子集上的轨迹准确率方面观察到显著改进。这一观察与Xue等人的发现一致，表明处理来自多种模态的输入可能引入模糊性，并充当噪音源，最终阻碍模型性能。

在奖励引导轨迹搜索方面，使用Best-of-n(BoN)采样的奖励引导搜索为评估奖励模型引导策略的能力提供了一个实用代理。值得注意的是，它允许评估奖励过度优化的潜力，而不依赖强化学习。此外，它提供了一种在不微调的情况下调整MLLM策略的有效方法。

在WebArena-lite的在线设置中，他们使用GPT-4o-mini作为策略，在五个从策略采样的动作候选中，执行分配最高奖励的动作。在使用GPT-4o-mini作为奖励模型时，他们观察到GPT-4o-mini策略的轻微改进。然而，当GPT-4o用作策略模型时，总体性能从31.52降至26.67。相比之下，应用WEB-SHEPHERD导致GPT-4o-mini和GPT-4o策略在几乎所有领域都有显著的性能提升。值得注意的是，WEB-SHEPHERD将GPT-4o-mini的浏览性能从23.64提升到34.55，比没有轨迹搜索的GPT-4o高出约3个百分点。这些结果表明，WEB-SHEPHERD在在线设置中保持有效，即使与更强的策略模型配对。

为了评估WEB-SHEPHERD生成的反馈的有效性，研究团队进行了实验，其中代理使用他们的反馈进行步级别改进。具体来说，当当前奖励低于WEB-SHEPHERD分配的前一个奖励时，代理使用他们的反馈改进当前动作。有趣的是，与Chae等人之前的发现相反，他们发现在改进过程中纳入模型反馈会导致显著改进。一个可能的解释是，WEB-SHEPHERD不仅学习了动作的影响，还识别了表征次优行为的模式。

成本效益分析与潜在应用

研究团队评估了WEB-SHEPHERD的成本效益，将其与基于API的模型进行了比较。对于WEB-SHEPHERD，成本估计基于A100 80GB GPU实例的每小时费率（1.19美元/小时），结合通过vLLM测量的吞吐量。每个实例平均有81,287个输入和1,953个输出标记，他们使用公开可用的价格计算基于API的模型的成本。

研究显示，WEB-SHEPHERD以最低的每1,000个实例成本提供了最佳性能——大约比GPT-4o-mini便宜10倍，比GPT-4o便宜100倍。这种显著的成本节约使得WEB-SHEPHERD成为实际应用中的可行选择，特别是对于需要在预算限制内大规模部署网络代理的企业或个人用户。

研究团队还进行了案例研究，对WEB-SHEPHERD进行定性分析。他们从奖励引导轨迹搜索中采样了30个成功案例和30个失败案例，并绘制了奖励分数趋势作为轨迹长度上的归一化步骤索引的函数。虽然失败案例表现出相对平坦的奖励曲线，但成功案例显示随时间的奖励平稳一致地增加。

此外，他们确定了三个最常见的错误来源：(1)对动作效果的错误推理，其中模型无法适当地预期未来奖励——例如，在下一步中为本应揭示所需信息的滚动动作分配低奖励；(2)对观察到的状态的误解，通常是由于没有正确考虑先前动作的影响，导致模型不必要地重复动作；(3)生成的清单中的幻觉，例如假设网站上存在不存在的功能（如过滤功能）。

研究局限性与未来方向

尽管WEB-SHEPHERD取得了显著的成功，但研究团队也坦率地讨论了他们工作的一些限制和未来研究方向。

首先，他们指出需要扩展到基于坐标的动作。最近，基于坐标的动作——代理使用直接坐标输入与数字环境交互，而不需要额外的后端程序来转换动作——因其在多样化接口中的适应性而受到关注。研究团队已经收集了一个数据集，以扩展WEB-SHEPHERD支持基于坐标的动作格式。然而，由于这个方向超出了本工作的主要范围，他们将其探索留给未来的研究。

其次，将WEB-SHEPHERD应用于强化学习是另一个有趣的未来方向。虽然他们计划探索这个设置，但它需要大量的计算资源，因此也留给未来的工作。特别是，他们希望调查来自PRMs的奖励信号是否可以提高学习效率——即，在训练期间奖励增加的速度——以及在现有基准上的最终性能。

第三，关于WEB-SHEPHERD的基础模型选择，研究团队目前的实现使用相对轻量级的基础模型（3B-8B），但这种方法是模型无关的，可以扩展到更大的规模。原则上，WEB-SHEPHERD可以扩展到32B-72B范围内的更强大的基础模型，这可能会在复杂的网络环境中进一步提高性能。他们将此类扩展的探索留给未来的工作，特别是在资源丰富的环境中。

最后，扩展WEB-SHEPHERD以处理多模态指令也是一个有前途的方向。虽然现有网络代理基准中的大多数指令都是纯文本的，但一些任务——例如VisualWebArena中的任务——同时包含文本和图像模态。扩展WEB-SHEPHERD以处理多模态指令是未来工作的有前途的方向，因为它将使代理能够在除了文本理解之外还需要视觉理解的更复杂和现实的网络环境中操作。

结论

归根结底，WEB-SHEPHERD代表了网络导航领域的重要进步。通过提供一个专门用于评估网络代理轨迹的高效过程奖励模型，研究团队不仅创建了一个性能优越的解决方案，还大大降低了成本，使其在实际应用中更加可行。

简单来说，WEB-SHEPHERD就像是一个经验丰富的旅行向导，不仅知道最终目的地在哪里，还能在旅程的每一步提供明确的指导。而且，与雇佣一个昂贵的专业向导相比，WEB-SHEPHERD提供了同样甚至更好的指导，但成本只有原来的十分之一。

此外，研究团队通过创建WEBPRM COLLECTION和WEBREWARDBENCH，为未来的研究提供了宝贵的资源，使其他研究人员能够构建和评估自己的网络导航奖励模型。

对于普通用户来说，这项研究的意义在于，它为更可靠、更经济的自动化网络任务铺平了道路。想象一下，在不久的将来，你可能会有一个个人助手，能够为你预订机票、比较产品价格、填写表格，甚至管理你的社交媒体账户，而所有这些都以高度可靠的方式完成，不需要你的不断干预。

WEB-SHEPHERD的清单基础方法还提供了一个可推广的框架，可能扩展到网络导航之外的其他顺序决策制定领域，特别是那些奖励稀疏和部分可观察性仍然具有挑战性的领域。我们相信，WEB-SHEPHERD为通过可解释的奖励建模开发更可靠的网络代理奠定了基础。

想要深入了解这项研究的读者可以访问研究团队的代码库和数据集，它们已公开可用。这不仅使其他研究人员能够复制和扩展这项工作，还使实践者能够将WEB-SHEPHERD集成到他们自己的应用中，从而推动网络代理技术的进一步发展和应用。

网络代理过程奖励模型人工智能助手

分享至