微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

ZeroGUI：零人工成本下自动化在线GUI学习的突破性研究

GUI代理在线强化学习零标注学习

ZeroGUI：零人工成本下自动化在线GUI学习的突破性研究

作者：科技行者

2025-06-03 18:35

分享至：

ZeroGUI是一项突破性研究，实现了零人工成本下的GUI代理自动化在线学习。由上海人工智能实验室和清华大学等机构联合开发，这一框架利用视觉-语言模型自动生成训练任务并提供奖励反馈，使AI助手能够自主学习操作各种图形界面。通过两阶段强化学习策略，ZeroGUI显著提升了代理性能，在OSWorld环境中使UI-TARS和Aguvis模型分别获得14%和63%的相对改进。该研究彻底消除了传统方法对昂贵人工标注的依赖，为GUI代理技术的大规模应用铺平了道路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-03 18:35 • 科技行者

在现代数字世界，与图形用户界面（GUI）交互是我们日常生活的一部分，无论是使用手机应用、浏览网站还是操作电脑软件。2025年5月，来自上海人工智能实验室、清华大学、上海交通大学、香港科技大学和香港中文大学的研究团队发布了一项名为"ZeroGUI: Automating Online GUI Learning at Zero Human Cost"的突破性研究。这项研究由杨辰宇、苏世谦、刘世、董轩、于越、苏维杰等人共同完成，已在arXiv（arXiv:2505.23762v1）上发表。该研究团队开发了一种创新框架，让AI助手能够自主学习如何操作各种图形界面，而无需人类提供任何标注数据。

一、为什么需要ZeroGUI？理解GUI代理的现状与挑战

想象一下，你刚买了一部新手机，面对全新的操作界面和应用程序，你需要一段时间才能熟悉。同样，AI也需要学习如何理解和操作这些图形界面。在过去，这种学习过程通常需要人类提供大量的标注数据——就像有人手把手教你如何使用新手机一样。研究人员需要记录界面上每个按钮的位置和功能，以及完成特定任务的详细步骤。这个过程不仅费时费力，还难以扩展到各种不同的应用和平台。

随着大型视觉-语言模型（VLMs）的发展，如OpenAI的GPT-4V和谷歌的Gemini，基于纯视觉的GUI代理（即能够"看到"屏幕并执行操作的AI系统）取得了显著进展。这些系统能够感知用户界面并根据指令执行点击、滚动或输入等操作。然而，现有方法仍然面临两个核心限制：

首先，它们严重依赖高质量的人工标注，包括界面元素的识别（例如，确定屏幕上的按钮、文本框等位置）和行动轨迹（即完成任务的一系列操作）。这些人工标注非常昂贵且耗时，难以跨不同平台和任务进行扩展。

其次，它们在适应动态和交互式环境方面能力有限。现实世界中的GUI是非静态且不确定的：元素可能会移动、消失或根据系统状态表现出不同的行为。现有代理往往过度拟合于静态或定义狭窄的任务，难以在开放式场景中泛化。

研究团队提出了一个关键问题：我们能否创建一个系统，让AI代理能够通过与GUI环境的持续交互来学习和改进，而无需人类提供任何标注？这就像让AI"自己玩"各种应用程序，从中学习如何操作，而不需要人类教导。

二、ZeroGUI：一种自动化的在线学习框架

为了解决上述挑战，研究团队开发了ZeroGUI，这是一个完全自动化的在线学习框架，使GUI代理能够在没有任何人工成本的情况下不断提升性能。

想象你在教一个孩子使用新游戏。传统方法就像你一步步地给孩子详细说明和演示，而ZeroGUI则是给孩子一个安全的环境，让他自己尝试，系统会自动告诉他做得对不对，并且会不断给他设计新的练习任务来提高技能。

ZeroGUI的核心理念是利用现有的视觉-语言模型（VLMs）来自动化两个关键过程：任务生成和奖励估计。这些VLMs已经在大规模GUI相关数据上进行了训练，擅长理解GUI元素、动作和状态转换。它们可以评估任务完成情况并基于观察到的信息提出相关任务。

该框架包含三个主要组件：

1. **基于VLM的自动任务生成**：系统会根据随机初始状态提出多样化的训练任务。就像一个创意丰富的老师，能够根据当前屏幕内容设计各种练习题目。例如，看到一个文本编辑器界面，系统可能会生成"将第一段文字设为粗体"或"更改文档的页面设置"等任务。

2. **基于VLM的自动奖励估计**：系统能够预测任务是否成功完成，提供二元奖励（成功/失败）作为监督信号。这消除了对手工制作的任务验证器的需求。就像有一个能够自动判断任务是否正确完成的评判员，而不需要人类来检查每一步操作。

3. **两阶段在线强化学习**：包括在生成的任务上进行训练，然后在测试时进行适应性调整。系统支持GUI代理与环境之间的多步交互。这就像先让学生在模拟环境中练习，然后再让他们应对真实场景中的挑战。

与传统的离线学习方法相比，ZeroGUI具有两个显著优势：首先，它完全消除了收集和标注训练数据的人力成本；其次，它能够持续适应动态变化的GUI环境，使代理在复杂的实际应用场景中表现更出色。

三、技术实现：ZeroGUI如何工作？

让我们深入了解ZeroGUI的工作原理，就像拆解一台精密机器，看看它的核心部件是如何协同工作的。

首先，让我们理解GUI任务完成过程可以被视为一个马尔可夫决策过程（MDP）。这听起来很复杂，但其实很简单：给定一个任务指令，GUI代理与环境交互。在每一步，代理根据当前观察到的屏幕内容和历史信息预测下一个动作。这个过程会一直持续，直到遇到终止动作或达到最大步数，最终形成一个操作轨迹。

ZeroGUI的实现分为三个关键部分：

**1. 自动任务生成**

想象你有一个非常聪明的朋友，他看一眼电脑屏幕就能想出各种有用的任务让你练习。ZeroGUI的任务生成器就是这样工作的。

研究团队使用先进的视觉-语言模型（如GPT-4o）来生成任务。他们发现，在任务生成过程中面临的一个关键挑战是确保生成的任务足够多样化，能够覆盖广泛的行为空间，同时又能与目标环境的操作约束保持一致。

为此，他们采用了以下设计：

- **示例引导式提示**：系统会结合指令示例和随机采样的初始状态截图，引导模型生成特定环境下的真实任务。就像给AI看一张浏览器截图和一些浏览器任务的例子，AI就能创造出新的合理的浏览器任务。

- **多候选生成**：在每次生成步骤中，系统会同时请求多个任务候选，鼓励模型生成多样化的任务集，而不是过度拟合于某一特定任务风格。这就像让AI一次提出10个不同的练习，而不是反复提出类似的任务。

此外，为了训练代理识别不可实现的目标并提供适当的反馈，研究团队还特意让系统生成一部分不可行的任务。这些任务在环境中有意设计为无法解决，要求代理明确输出"FAIL"响应。这就像故意给学生出一些无解的题目，教会他们识别问题的可解性。

**2. 自动奖励估计**

传统的交互式环境通常使用基于脚本的验证器来确定任务是否成功（例如，检查文件内容或系统状态）。这些验证器通常涉及复杂的命令和逻辑来覆盖所有可能的情况，严重依赖手动实现和调试。

ZeroGUI使用视觉-语言模型为轨迹分配二元奖励。然而，基于VLM的评估并不完美，它可能会忽略细节或受到幻觉的影响，导致错误的标记。在两种错误类型中（假阳性和假阴性），研究表明假阳性影响更大，因为它们会扭曲代理的学习过程。

为了解决这个问题，奖励估计器专注于减少假阳性并提高精确度：

- **包含轨迹中的所有截图**：有些任务的成功只能通过动作前后环境的变化来确定，因此需要所有截图。

- **排除代理的响应**：这些响应可能包含成功的幻觉，即使任务实际上失败了，也可能误导VLM给出假阳性奖励。

- **采用投票机制**：系统会多次查询VLM，基于多数同意或更严格的一致同意（即只有当所有输出都表明成功时才分配奖励）来分配奖励。这进一步降低了假阳性的风险。

**3. 两阶段在线强化学习**

有了自动任务生成和奖励估计机制，GUI代理可以通过持续与GUI环境交互并根据奖励更新其策略来进行在线学习。由于奖励估计器不依赖内部环境状态或标准标签，它也可以为测试任务提供奖励，实现测试时适应。

研究团队引入了两阶段训练策略：

- **在生成的任务上训练**：代理从生成的任务中学习基本能力。就像在模拟环境中练习基础技能。

- **测试时训练**：代理使用来自奖励估计器的奖励适应目标测试任务。这就像在实际考试中进一步调整和完善技能。

他们采用强化学习（RL）进行这种两阶段在线训练，使用了组相对策略优化（GRPO）算法，该算法消除了对额外价值函数的需求，并在其他场景中对大型语言模型和视觉语言模型的后训练非常有效。

为了适应GUI代理的在线RL，研究团队对原始GRPO算法进行了以下修改：

- **将优化目标扩展到多步轨迹**：原始GRPO中，每个样本是单个生成序列，而在GUI代理设置中，每个轨迹由多个操作预测序列组成。

- **修改KL损失项以提高训练稳定性**：原始GRPO使用k3-估计器计算KL散度，但研究团队发现这可能导致梯度过大，容易出现溢出或下溢。他们将其替换为k2-估计器（即逐标记MSE损失），提供更稳定的梯度，避免数值溢出。

实验证明，这些修改显著提高了训练的稳定性和性能。

四、实验评估：ZeroGUI的惊人效果

研究团队在两个先进的GUI代理（UI-TARS和Aguvis）上应用了ZeroGUI，并利用桌面（OSWorld）和移动（AndroidLab）环境进行评估。他们的实验设计得非常全面，让我们了解这个系统在真实世界中的表现。

**OSWorld实验**

OSWorld是一个基于计算机环境构建的基准，用于评估多模态代理在复杂真实世界任务上的表现。它包含369个任务，涵盖Web应用程序、桌面软件和操作系统级操作。其中，30个任务（测试集的8.1%）被设计为不可行的，用于评估代理检测已弃用或幻觉功能的能力。

在Ubuntu平台上，使用仅屏幕截图模式，研究团队在分辨率为1920×1080的屏幕上进行了评估，最大步数限制为15步。为了减少网络不稳定性和环境变异性的影响，他们报告了4次运行的平均值和标准差。

实验结果令人振奋：

1. 与基础模型相比，ZeroGUI显著提高了任务成功率，尤其是在可行子集上。具体来说，对于UI-TARS-7B-DPO，在所有任务上取得了+2.5（14%）的提升，在可行子集上取得了+4.5（40%）的提升。对于Aguvis-7B，尽管基础模型表现较差，但ZeroGUI仍然带来了+1.9（63%）和+2.1（88%）的提升，相对改进甚至更大。

2. 两个训练阶段（生成任务训练和测试时训练）都对性能提升有所贡献。通过pass@4和all-pass@4指标进一步揭示了它们的互补角色：生成任务训练显著提高了pass@4，表明大规模多样化生成任务有助于扩展模型的能力覆盖范围；测试时训练主要提升了all-pass@4，表明模型在适应目标任务后行为一致性得到增强。

3. 仅使用测试时训练的表现不如两阶段设置，这突显了生成训练在提供有益能力基础方面的作用，使RL在下一阶段能够解锁更多任务并获得更多信息性奖励。

4. 在全测试集上的改进小于可行子集（例如，UI-TARS-7B-DPO的平均成功率+2.5 vs. +4.5），表明在不可行性检测方面有所下降。这可能有两个原因：(a)VLM缺乏特定软件的详细知识，难以判断不可行性；(b)带有假阳性的噪声奖励可能导致模型变得过于自信。为了缓解这一问题，研究团队在训练集中包含了一部分生成的不可行任务，这在很大程度上缓解了这个问题。

**AndroidLab实验**

AndroidLab是一个交互式Android环境，包括Android系统和9个可离线部署的应用程序（如时钟、日历等）。它包含138个测试任务，分为两类：操作任务和查询检测任务。操作任务涉及通过操作完成目标，并通过预定义规则进行评估；查询检测任务要求模型提取信息并返回文本答案，由GPT进行评分。

由于某些任务的GPT评估不完全可靠，研究团队报告了全测试集和操作任务子集的评估结果。在截图模式下，ZeroGUI在操作子集上实现了+2.8的提升，在全测试集上实现了+1.8的提升，这表明所提出的ZeroGUI在不同交互式GUI环境中具有良好的泛化能力。

从子目标成功率（Sub-SR）的角度来看，ZeroGUI在操作子集上实现了+2.9的提升。尽管仅利用整体任务奖励，它仍然在子任务指标上取得了性能提升。

**实验细节**

在任务生成方面，研究团队使用GPT-4o为OSWorld一次生成10个任务，为AndroidLab一次生成5个任务。总共生成了4,000多个基于Ubuntu的任务和225个基于Android的任务。在训练时，他们从生成池中随机抽样了725个Ubuntu任务和175个Android任务，约为各自测试集大小的两倍。

对于奖励估计，他们本地部署了Qwen2.5-VL-32B以提高效率。他们使用温度为1.0的VLM进行4次查询，并使用一致同意投票来确定奖励。

对于训练，他们选择了UI-TARS-7B-DPO和Aguvis-7B作为基础模型，使用AdamW优化器，学习率恒定为2e-6。对于GRPO，他们设置组大小G=64，KL系数β=0.1，并采用DAPO动态采样，过滤掉准确率等于1或0的任务。对于每个rollout步骤，采样持续到收集16k序列，然后进行单次梯度更新。他们对生成任务和测试时任务各训练1个epoch。

五、深入分析：ZeroGUI的组件效果

研究团队进行了全面的消融研究，以理解ZeroGUI各个组件的贡献。这些研究就像拆解一台机器，单独测试每个零件的作用，帮助我们理解系统中真正重要的部分。

**任务生成**

研究表明，移除任务生成过程中的示例或一次只生成一个任务会导致测试性能下降。这可以归因于两个因素：提供任务示例有助于将生成任务的分布与目标领域对齐，而生成多个任务增加了多样性，这对训练数据至关重要。

此外，排除不可行任务会导致在不可行子集上的表现急剧下降，表明这类任务帮助模型识别不可实现的目标并减少过度自信。

**奖励估计**

研究团队先随机选择一组轨迹（UI-TARS-7B-DPO在生成任务上的表现）并手动标注了基础事实奖励。然后，他们将不同的奖励估计方法应用于这组轨迹，评估它们的精确度和召回率。此外，他们使用每种方法估计的奖励训练了单独的模型，并比较它们在测试任务上的成功率。

结果表明：

1. 使用最终截图而非所有截图会导致精确度、召回率和测试成功率较低。

2. 在奖励估计过程中包括代理的响应会产生最高的召回率，但显著降低了精确度和测试成功率，表明VLM被响应误导，产生了许多假阳性。

3. 排除代理的响应并应用投票机制会增加精确度同时降低召回率，并导致测试成功率显著提高。这表明假阳性错误对模型训练的影响更大。

**强化学习训练**

为了评估在线RL训练的有效性，研究团队将其与两个基线进行了比较：离线拒绝采样微调（RFT）和在线RFT。

离线RFT首先使用基础模型为所有任务收集轨迹，然后仅在正样本上进行微调。其性能受限于收集的轨迹与更新后的策略之间的分布不匹配，并且无法利用策略更新后发现的新任务的奖励。

在线RFT表现更好，但仍落后于在线RL。这主要是因为RFT丢弃了所有负样本，而RL使模型能够从中学习并避免重复过去的错误。

研究还评估了将原始GRPO中的k3-KL损失替换为k2-KL损失的效果。结果表明，k2-KL产生更高、更稳定的训练准确率。测试成功率进一步验证了k2-KL在这种设置下的优越性。

**关于KL损失的进一步分析**

虽然一些现有工作建议为一般推理任务移除KL惩罚，但研究团队在训练GUI代理的背景下发现了不同的结果。他们观察到，设置β=0.1产生最佳测试性能。完全移除KL损失（β=0）或使用较小的β（如0.01）会导致性能下降，可能是因为策略分布漂移导致模型过度拟合当前任务。相比之下，较大的β（如1）对优化施加过多约束，也会导致更差的结果。

六、ZeroGUI的案例研究：从困境到成功的转变

研究团队进行了案例研究，进一步展示了ZeroGUI的有效性。他们观察到，基础模型UI-TARS-7B-DPO在任务理解和对细节的关注方面有限，在任务执行过程中经常陷入重复动作循环。相比之下，经过ZeroGUI训练后，模型表现出明显更稳定的行为策略和更强的任务执行能力。

例如，在OSWorld的VS Code领域中，有一个指令是："我想让标签在超出可用空间时换行成多行，请帮助修改VS Code的设置。"在执行过程中，基础模型尝试修改"Tab Size"参数，但在输入新值之前未能删除默认值。相反，它将新数字添加到现有值之前，导致设置错误。然后，这种错误操作被重复多次，表明模型缺乏检测无效动作的能力。相比之下，ZeroGUI训练后的模型采用了更稳健的动作策略：它首先使用键盘快捷键选择所有现有内容，然后输入正确的值，成功完成任务。

另一个例子来自LibreOffice Impress领域，指令是："将桌面上的图像'none.png'添加到幻灯片2，大小为1cm*1cm。"在点击"插入"菜单后，基础模型尝试选择"图像"选项，但由于定位不准确而误点了一个空白区域，导致菜单过早关闭。然而，模型未能检测到这种变化，继续尝试点击现已关闭的"插入"菜单下的"图像"选项，导致无效重复。相比之下，ZeroGUI训练后的模型更可靠地完成了完整的插入过程。它成功打开了图像插入界面，选择了正确的图像文件，逐步调整了宽度和高度，最终准确地完成了这个长期任务。

在执行AndroidLab任务时，模型同样显示出显著的性能提升。以日历任务为例，指令是："你应该使用日历完成以下任务：为我在5月21日安排一个标题为'homework'的事件，并将通知时间设置为提前10分钟。"基础模型对指令的理解不足，忽略了事件标题和通知时间等细节。它既没有添加事件标题也没有设置通知，最终关闭了界面。相比之下，ZeroGUI训练后的模型准确地捕捉并执行了这些详细要求，成功在指定日期添加了事件并设置了通知，这证明了该训练框架在缓解忽略细节的问题和提高任务准确性方面的有效性。

值得注意的是，基础模型未能完成上述任何任务，表明缺乏来自成功轨迹的监督。通过在生成任务上进行训练，ZeroGUI训练后的模型学习了更具泛化性的交互策略。这种能力不仅提升了其在特定任务上的表现，还展示了所提出的训练框架在使模型适应复杂GUI环境方面的重要潜力和实际效果。

七、ZeroGUI的意义与未来展望

ZeroGUI代表了GUI代理训练领域的重大突破。通过消除对人工收集和标注的离线训练数据的需求，它为GUI代理的大规模开发铺平了道路。研究团队的两阶段强化学习策略不仅提高了代理的基本能力，还增强了其适应具体任务的能力。

这项研究的突出贡献包括：

1. 提出了ZeroGUI，一个完全自动化的在线学习框架，使GUI代理能够通过与GUI环境的交互来提高，消除了收集和标注离线训练数据的需求。

2. 设计了基于VLM的自动任务生成和奖励估计，在没有人工标注的情况下生成训练任务并提供监督奖励。

3. 引入了两阶段强化学习策略。第一阶段，在生成的任务上的训练建立了代理的一般能力；第二阶段，测试时训练使代理能够适应目标测试任务。

4. 所提出的ZeroGUI显著提高了不同GUI环境的任务成功率，并很好地泛化到不同的基础模型。

尽管ZeroGUI取得了显著成功，但仍存在一些局限性和未来研究方向：

1. **奖励估计精度**：当前的奖励估计仍然不够完美，尤其是在处理复杂任务或需要细粒度理解的情况时。改进VLM的奖励估计能力或探索更复杂的奖励模型是未来工作的重要方向。

2. **任务多样性**：虽然当前的任务生成方法产生了多样化的任务，但它们可能仍然无法完全覆盖所有可能的用户行为和交互模式。开发能够生成更广泛、更具挑战性任务的方法将进一步提高GUI代理的鲁棒性。

3. **跨环境泛化**：当前的实验主要集中在特定的GUI环境中。探索代理如何将在一个环境中学到的技能转移到新环境是一个有价值的研究方向。