微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 香港大学团队发明"网络教练":人工智能学会看教程就能自己操作网页

香港大学团队发明"网络教练":人工智能学会看教程就能自己操作网页

2026-03-05 10:20
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-03-05 10:20 科技行者

这项由香港大学和Salesforce研究院联合开展的研究发表于2025年的ICLR会议(国际学习表征会议),有兴趣深入了解的读者可以通过论文编号arXiv:2412.09605v2查询完整论文。

大家在使用电脑时,是不是经常需要查看网上的操作教程?比如如何在Gmail中设置自动回复,或者怎样在电商网站上修改收货地址。现在,研究人员开发出了一种革命性的人工智能系统AgentTrek,它能够像人类一样阅读这些网络教程,然后自动在真实的网页上执行相应的操作。更令人惊叹的是,这个系统不仅能学会操作,还能生成大量高质量的训练数据,让其他人工智能也学会这些技能。

这项突破性研究解决了人工智能领域一个长期存在的难题:如何让计算机像人类一样熟练地操作图形用户界面。过去,训练这样的人工智能需要大量人工标注的数据,成本极高且难以规模化。而AgentTrek系统通过自动化的方式,将每条高质量训练轨迹的成本降低到仅0.55美元,相比传统方法实现了显著的成本突破。

研究团队设计的这套系统就像一个勤奋的学生,它会先从互联网上收集各种操作教程,然后像人类一样理解这些教程内容,接着在真实的网页环境中按照教程步骤进行操作,同时记录下整个操作过程。更重要的是,系统还具备自我评估能力,能够判断自己的操作是否成功完成了教程中描述的任务。

**一、自动收集网络教程:从海量信息中淘金**

AgentTrek系统的第一步工作可以比作一个专业的图书管理员,需要从浩如烟海的网络内容中找出真正有用的操作教程。这个过程面临的挑战是巨大的,因为虽然互联网上有大量的教程内容,但它们只占整个网络内容的很小一部分,而且质量参差不齐。

研究团队从RedPajama数据集开始工作,这个数据集包含了208亿个网页条目。面对如此庞大的数据量,他们设计了一个精巧的四步筛选流程。首先是预筛选阶段,系统会查找包含"点击"、"输入"、"菜单"、"按钮"等操作相关关键词的网页,同时检查文本长度是否适中(200-5000词),还会优先选择那些网址中包含"how-to"或"guide"等字样的页面。这个步骤就像用粗筛子先过滤掉明显不相关的内容,将数据量从208亿减少到6880万条。

接下来进入更精细的筛选阶段。研究团队使用了GPT-4o Mini这个大语言模型来分析文本内容,判断它们是否真的是关于图形界面操作的教程。这就像请一位经验丰富的老师来审查每篇文章,看看它是否真的在教人如何操作软件或网页。令人有趣的是,在对比人工标注和AI标注的结果时,研究人员发现AI有时候比人类更敏锐,能够识别出人类忽略的一些隐藏在长文中的教程内容。

为了处理剩余的海量数据,研究团队还训练了一个FastText分类器。这就像培养了一个专门识别教程的小助手,它可以快速处理大量文本。这个分类器在验证集上达到了89.5%的F1分数,表现相当不错。经过这一轮筛选,最终剩下大约1880万条去重后的教程候选内容。

最后一步是标准化处理。系统会将这些教程重新组织成统一的格式,包括平台信息(比如是在Windows还是Mac系统上操作)、目标环境(是网页浏览器还是桌面应用)、任务描述、前置条件、具体步骤和预期结果等部分。这就像把各种风格的食谱都改写成统一的标准格式,让后续的"烹饪"(也就是操作执行)更加顺利。

**二、智能代理执行教程:从文字到实际操作的转换**

有了标准化的教程,下一步就是让AI代理真正按照教程在网页上进行操作。这个过程就像让一个从未见过厨房的机器人学会按照菜谱做菜,不仅要理解文字描述,还要在真实环境中精确执行每个动作。

研究团队使用了BrowserGym这个专门的浏览器环境来进行实验。AI代理在这个环境中就像一个真实的用户,可以看到网页截图,理解页面的结构,然后使用鼠标点击、键盘输入等方式与网页进行交互。每次操作时,代理都会先观察当前的页面状态,思考下一步应该做什么,然后执行相应的动作。

整个操作过程被完整记录下来,形成了丰富的轨迹数据。这些数据包含多种信息:任务的基本信息和步骤说明,完整的屏幕截图和视频记录,详细的技术日志(包括DOM快照、HTML结构、网络流量等),以及处理后的训练数据(包括任务描述、观察结果、推理过程和动作序列)。

值得注意的是,AI代理主要通过页面截图和可访问性树(AXTree)来理解网页,而不是直接处理HTML代码。这种设计有其优势,因为HTML代码往往非常冗长且包含很多对视觉交互不重要的信息。可访问性树提供了页面结构的简化表示,每个可交互元素都有唯一的标识符,这样代理就能准确地定位和操作目标元素。

在执行过程中,系统平均每个交互步骤使用约8027个令牌,每个完整任务使用约86114个令牌。使用GPT-4o模型执行1000个任务的成本大约是215美元。这个成本相对于传统的人工标注方式来说已经非常经济了。

**三、自动质量评估:确保操作结果的可靠性**

生成了大量的操作轨迹后,如何判断这些操作是否真正成功完成了预定任务呢?研究团队开发了一个基于视觉语言模型的自动评估系统,这就像请了一位严格的考官来检查每次操作的结果。

这个评估系统使用GPT-4o作为核心引擎,它会分析任务描述、完整的操作历史和代理的推理过程。评估过程采用了精心设计的提示词,让模型能够全面评判轨迹的有效性。评估标准主要包括两个方面:是否遵循了指定的任务指令,是否成功完成了所有关键的任务组件。

为了验证这个自动评估系统的准确性,研究团队进行了大规模的人工验证。他们让人类专家对1081个轨迹进行了详细审查,创建了包含558个样本的黄金标准验证集。结果显示,VLM评估器达到了84.0%的准确率,这个表现相当出色。

更有意思的发现是,在人类和AI评估出现分歧的案例中,详细分析后发现AI评估器往往比人类评估者更加严格。这意味着这个自动评估系统在识别真正有效的轨迹方面具有很强的可靠性,同时采用了保守的过滤策略,宁可错杀也不放过低质量的数据。

**四、训练新一代智能代理:让更多AI学会网页操作**

有了大量高质量的轨迹数据,研究团队开始训练新的AI代理。他们采用了两种不同的训练方法,分别针对基于视觉的代理和基于文本的代理。

基于视觉的代理完全依靠视觉输入工作,不需要访问底层的UI源代码。这种方法具有显著的效率优势,比如Qwen2-VL模型处理一个720p的屏幕截图只需要1200个令牌,而HTML表示大约需要4000个令牌。代理的动作空间通过pyautogui命令实现,可以直接基于像素坐标与视觉UI元素交互。研究团队开发了从playwright动作到pyautogui命令的系统映射,并实现了插件化的动作系统来处理特殊交互(比如下拉选择操作)。

基于文本的代理则以可访问性树作为主要观察源,这种表示方式能够提供网页元素关系和属性的语义理解。代理通过playwright命令执行动作,这些命令能够对可访问性树中识别的网页元素进行精确控制。这种方法在需要与复杂网页组件(如表单、下拉菜单和嵌套导航元素)进行结构化交互的场景中表现出色,因为它能够很好地理解元素关系的语义含义。

对于视觉代理,研究团队使用了Qwen2-VL模型,该模型采用NaViT作为图像编码器,提供动态分辨率支持。他们使用AgentTrek数据集中的10000个轨迹对模型进行微调,重点增强视觉定位能力和复杂网页导航任务的多步骤规划。

对于文本代理,研究团队在不同参数规模(7B和32B)的Qwen2.5大语言模型上进行微调,使用了AgentTrek数据集中的6000个代理轨迹。这些轨迹将可访问性树观察与相应的playwright动作配对,为网页交互创建了全面的训练信号。微调过程显著增强了模型解释结构化网页表示、推理元素关系和基于文本线索生成上下文适当动作的能力。

**五、实验验证:在多个基准测试中的卓越表现**

为了全面验证AgentTrek系统的有效性,研究团队在多个established基准测试上进行了评估,结果令人印象深刻。

在WebArena这个基于真实网站环境的文本代理测试中,使用AgentTrek数据训练的模型表现出色。Qwen2.5-7B-Instruct模型的任务成功率从原来的3.80%提升到10.46%,而32B版本更是达到了22.40%的成功率,甚至超过了GPT-4o的13.10%。这些结果特别有说服力,因为WebArena使用的是自托管网站,与训练过程中见过的网站完全不同,充分证明了AgentTrek数据能够让模型具备良好的泛化能力。

在ScreenSpot这个GUI视觉定位基准测试中,使用AgentTrek微调的Qwen2-VL模型的表现同样出色。在文本任务上的准确率达到81.7%,图标任务上达到51.5%,平均准确率67.4%。这个结果与GPT-4加上OmniParser的表现(81.3%和51.0%)相当,但AgentTrek的优势在于它是通过完全自动化的方式获得训练数据的。

在多模态Mind2Web基准测试中,实验结果揭示了几个重要发现。首先,基础的Qwen2-VL-7B模型由于定位能力不足而被排除在比较之外,这突显了视觉网页代理任务中基础定位能力的重要性。其次,使用AgentTrek数据训练显著提升了模型性能。最重要的发现是,AgentTrek与Mind2Web训练数据的结合产生了最强的效果,这表明两种数据源具有互补优势:AgentTrek提供了基础的交互数据,而Mind2Web贡献了复杂网页任务的专业资源。

**六、成本效益与数据质量:革命性的训练数据生成方案**

AgentTrek系统最令人瞩目的优势之一是其出色的成本效益。传统的人工标注方法不仅昂贵,而且难以大规模实施。相比之下,AgentTrek的完全自动化流程将每个高质量轨迹的成本降低到仅0.55美元。

成本分解显示了整个流程的经济效率:标注和改写阶段每1000条记录成本0.89美元,重放阶段成本215.36美元,评估阶段成本3.10美元。考虑到网页相关教程的比例(27.5%)和重放成功率(39.9%),最终每个验证有效轨迹的成本为0.55美元。

在数据多样性和规模方面,AgentTrek表现同样出色。从RedPajama语料库开始,系统最终筛选出23430个教程,成功生成了10398个有效轨迹,覆盖了127个网站和11个任务类别,包括电商、生产力工具和知识导航等。这种广泛的覆盖确保了训练出的代理能够应对各种场景,具备强大的泛化能力。

数据质量的另一个重要指标是轨迹的复杂度。AgentTrek生成的轨迹平均包含12.1个步骤,这比许多现有数据集的轨迹更长更复杂。这种多步骤的复杂轨迹对于训练能够处理现实世界复杂任务的代理至关重要。

研究团队还进行了一个控制实验来验证详细教程指导的价值。在400个任务中,遵循详细教程指导的代理达到了52%的成功率(208个有效轨迹),而仅仅依靠高层目标指导的代理成功率只有15.78%(63个有效轨迹)。这23%的性能提升充分说明了结构化指导在生成可操作、高保真轨迹方面的价值。

**七、数据规模效应:更多数据带来更好性能**

为了深入探索合成数据规模化的效益,研究团队系统性地评估了使用AgentTrek数据集不同比例时的性能增益。他们在具有挑战性的多模态Mind2Web基准上进行了评估,结果清楚地展示了数据规模与性能之间的正相关关系。

实验显示,跨域步骤成功率从使用20%数据时的39.5%稳步提升到使用100%数据时的45.0%。这种持续的改进趋势清楚地表明,额外的合成轨迹确实能够增强模型对新域的泛化能力。更重要的是,当与Mind2Web训练数据(达到47.7%的跨域指标)进行比较时,完全自动化的AgentTrek数据集在规模扩大时能够接近类似的性能水平。

这个发现具有重大意义,它表明自动化合成数据生成是缩小与人工标注数据性能差距的可行策略。随着数据规模的进一步扩大,有望实现与人工标注数据相当甚至更好的性能,这为未来的可扩展性提供了巨大潜力。

**八、真实环境中的实际应用:从实验室到现实世界**

AgentTrek系统的一个关键优势是它在真实网页环境中进行数据收集,而不是在合成或简化的设置中。这种真实性对于训练能够应对动态、不可预测GUI的代理至关重要。

在真实环境中操作意味着代理必须处理各种现实世界的复杂性:网页加载延迟、动态内容更新、不同浏览器的兼容性问题、以及各种意外的弹窗和错误信息。这些挑战在实验室环境中通常不会遇到,但在实际应用中却是家常便饭。

使用互联网来源的教程还带来了另一个重要优势:内容的多样性和实用性。这些教程是由真实用户为解决实际问题而创建的,因此它们反映了人们在日常工作和生活中真正需要完成的任务。相比于研究人员人为设计的任务,这些教程具有更强的实用性和代表性。

系统生成的轨迹数据具有全面的多模态特性,包括文本观察(HTML和可访问性树)、视觉观察(截图和视频)、以及详细的推理链。这种丰富的数据格式使得训练出的代理能够同时具备文本理解和视觉感知能力,在面对不同类型的界面时都能做出合适的反应。

**九、技术创新与方法突破**

AgentTrek在技术方法上实现了多个创新突破。首先是多阶段过滤策略的设计,通过预过滤、LLM标注、FastText分类和标准化处理的组合,实现了从海量数据中高效提取高质量教程的目标。这种方法既保证了召回率又控制了精确度,为后续步骤奠定了良好基础。

其次是引导重放机制的设计。与传统的强化学习或模仿学习方法不同,AgentTrek采用了结构化教程引导的方式,让AI代理能够在有明确指导的情况下学习复杂的多步骤任务。这种方法大大提高了学习效率,减少了试错成本。

第三个创新是自动化评估系统的设计。传统方法往往需要人工评估轨迹质量,这不仅成本高昂而且难以标准化。AgentTrek使用视觉语言模型进行自动评估,不仅大幅降低了成本,还保证了评估标准的一致性。

最后是多模态数据生成能力。AgentTrek生成的轨迹数据同时包含文本和视觉信息,支持训练不同类型的代理。这种统一的数据格式为future的多模态AI系统发展提供了重要支撑。

说到底,AgentTrek代表了AI代理训练方法的一个重要转折点。它不仅解决了训练数据稀缺的问题,更重要的是证明了通过自动化方法可以生成高质量的训练数据。这项研究的意义远超出了技术层面,它为AI系统的实用化应用开辟了新的道路。

从成本角度来看,每个高质量轨迹仅0.55美元的成本使得大规模训练成为可能。这意味着未来我们可能会看到更多智能助手能够熟练地操作各种软件和网页,帮助人们自动化处理日常任务。

从技术发展角度来看,AgentTrek展示了如何将大语言模型的理解能力与实际操作能力结合起来。这种结合为未来的人机交互开辟了新的可能性,我们可以期待更加智能和直观的用户界面出现。

对于普通用户来说,这项研究预示着一个更加便利的数字生活时代的到来。未来的AI助手不仅能够理解我们的需求,还能直接在我们的设备上执行相应的操作,真正实现"所想即所得"的用户体验。当然,这也提醒我们需要思考AI代理广泛应用可能带来的隐私和安全问题,确保技术发展能够真正造福人类社会。

Q&A

Q1:AgentTrek是什么?它能做什么?

A:AgentTrek是香港大学开发的AI系统,它能自动从网络教程中学习并在真实网页上执行操作。就像给AI配了个"网络教练",让它看着教程就能学会点击、输入、导航等各种网页操作,还能生成大量高质量的训练数据供其他AI学习。

Q2:AgentTrek生成的训练数据成本有多低?

A:每个高质量轨迹的成本仅为0.55美元,这比传统人工标注方法便宜很多。整个过程完全自动化,从收集教程到执行操作再到质量评估,大大降低了AI代理训练的门槛和成本。

Q3:AgentTrek训练出的AI代理表现如何?

A:表现相当出色。在WebArena测试中,32B模型达到22.40%成功率,超过了GPT-4o的13.10%。在ScreenSpot视觉定位测试中准确率达67.4%,与最先进的方法相当。这些都是在完全自动化训练的情况下实现的。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-