微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

UI-Genie: 一种自我改进的方法，通过迭代提升基于多模态大语言模型的移动端GUI智能体

多模态大语言模型智能体系统人机交互

UI-Genie: 一种自我改进的方法，通过迭代提升基于多模态大语言模型的移动端GUI智能体

作者：科技行者

2025-05-31 10:06

分享至：

UI-Genie是一个创新的自我改进框架，解决了GUI智能体面临的两大挑战：轨迹验证困难和高质量训练数据缺乏。研究团队开发了专用奖励模型UI-Genie-RM，采用图像-文本交错架构有效处理历史上下文，并统一了步骤级和任务级奖励评估。通过精心设计的数据生成策略和迭代自我改进，该框架无需人工标注即可创建高质量合成轨迹。实验结果显示，经过三轮数据-模型自我改进后，UI-Genie在多个基准测试上达到了最先进水平。该研究已开源全部实现和数据集，为GUI智能体研究提供重要资源。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-31 10:06 • 科技行者

这项由香港中文大学多媒体实验室(CUHK MMLab)和vivo AI实验室共同完成的研究，由Han Xiao、Guozhi Wang、Yuxiang Chai等人领导，发表于2025年5月27日的arXiv预印本平台，论文编号为arXiv:2505.21496v1。感兴趣的读者可以通过GitHub项目页面(https://github.com/Euphoria16/UI-Genie)进一步了解并获取完整代码和数据集。

智能手机上的"数字助手"——现状与挑战

想象一下，如果你可以用自然语言告诉你的手机："帮我在CNN应用中搜索关于熊猫的新闻"，然后它就自动完成所有操作——打开应用、找到搜索按钮、输入关键词、查看结果。这正是GUI智能体（Graphical User Interface Agent，图形用户界面智能体）所要实现的功能。

随着大语言模型（LLM）的快速发展，特别是具备视觉理解能力的多模态大语言模型（MLLM）出现后，这种"看懂"屏幕内容并执行相应操作的智能体已经取得了显著进展。不过，构建高性能的GUI智能体仍面临两大核心挑战：

首先，如何判断智能体执行的一系列操作是否正确？与简单的问答任务不同，GUI操作是一个连续的过程，不能仅看最终结果，还需要评估每一步操作是否合理。想象你在教一个小朋友使用手机，你不仅需要看他最终是否完成了任务，还要确保他的每一步操作都是正确的。

其次，获取高质量的训练数据成本高昂。目前，训练GUI智能体通常需要人工标注大量操作轨迹，就像有人手把手记录下完成某项任务的每一步点击、滑动操作，这不仅耗时费力，而且难以大规模扩展，特别是对于复杂的多步骤任务。

UI-Genie：自我成长的智能助手

为解决这些问题，研究团队提出了UI-Genie，一个能够自我改进的框架，无需大量人工标注就能生成高质量的合成轨迹数据。这个框架有点像一个能够自学成才的学徒，它通过不断实践和自我评估来提升能力。

UI-Genie的核心创新在于它包含两个相互促进的组件：一个专门的奖励模型（UI-Genie-RM）用于评估操作是否正确，以及一个自我改进的流程，能够不断提升智能体的能力。

### 奖励模型：智能体的"内部导师"

UI-Genie-RM是这个系统的关键创新，它就像智能体的"内部导师"，负责判断每个操作步骤是否正确，以及整个任务是否完成。

想象你在学习使用一个新应用，有一位导师在旁边观察你的每一步操作。他不仅会告诉你"这一步对了"或"这一步错了"，还会根据你之前的所有操作和当前的屏幕内容来评判。这正是UI-Genie-RM的工作方式。

这个奖励模型有两个特别之处：首先，它采用了图像-文本交错的架构，能够有效处理历史操作记录。简单来说，它不仅"看"当前的屏幕，还"记得"之前的几个屏幕和操作，这样才能做出准确的判断。就像你需要知道前几步的操作才能判断当前操作是否合理一样。

其次，它统一了步骤级和任务级的奖励评估。这意味着同一个模型既能判断单个操作是否正确（比如"点击搜索按钮"这一步是对的），也能判断整个任务是否完成（比如"成功搜索到了熊猫新闻"）。这就像一个导师既能纠正你的每一个小动作，也能告诉你整个任务是否圆满完成。

### 数据构建：从无到有创建"训练教材"

为了训练这个奖励模型，研究团队开发了一系列精心设计的数据生成策略：

首先是基于规则的验证。想象你有一本操作手册，上面写着完成任务的正确步骤。团队使用这些已知的正确操作作为参考，让初始智能体尝试预测操作，然后通过比较预测的操作与标准答案来判断是否正确。比如检查操作类型是否匹配（点击vs滑动），坐标是否准确（点击的位置是否正确），以及语义是否一致（输入的文本是否合适）。

其次是轨迹篡改。这就像故意在正确的操作序列中引入错误，创造"负面教材"。研究团队通过三种方式篡改成功轨迹：提前终止（操作做到一半就停止），跨任务替换（混入其他任务的操作步骤），以及冗余继续（任务已完成却继续操作）。

最后是困难样本挖掘。研究团队找出那些容易被误判为正确的错误操作，这些"迷惑性"样本对于提升模型的鉴别能力特别重要。就像找出最容易混淆学生的错误案例进行重点讲解。

通过这些策略，研究团队创建了首个专门用于GUI智能体的奖励数据集——UI-Genie-RM-517k，包含超过51.7万个标注样本。

### 自我改进：从简单到复杂的成长之路

UI-Genie最与众不同的特点是它的自我改进机制。想象一个学习烹饪的学徒，一开始只会做简单的菜肴，随着不断实践和反馈，逐渐掌握更复杂的料理技巧。UI-Genie就是通过这样的方式不断进步的。

具体来说，研究团队设计了一个循环渐进的过程：

首先，智能体在动态环境中探索可能的操作路径。UI-Genie-Agent生成多个候选操作，UI-Genie-RM对这些操作进行评分，只保留最有希望的路径继续探索。这有点像走迷宫时，每到一个分叉口都选择看起来最有希望的方向继续前进。

然后，对完整的操作轨迹进行成功与否的验证。成功的轨迹会被添加到智能体的训练数据中，而失败的轨迹中那些被确认为正确的中间步骤也会被用来改进奖励模型。

最后，通过这些新收集的数据对智能体和奖励模型进行再训练，使它们变得更加强大。

研究团队通过三轮迭代，从简单任务逐步过渡到复杂任务：第一轮使用基础数据集中的任务指令建立基线性能；第二轮引入通过开源大语言模型生成的新任务指令；第三轮结合前两轮中失败的任务和手工制作的复杂场景，这些任务通常需要超过10个步骤才能完成。

通过这个过程，研究团队生成了UI-Genie-Agent-16k数据集，包含16000个高质量的合成轨迹，无需人工标注。更重要的是，这个自我改进的循环创造了一个良性反馈：增强的智能体能够生成更多成功轨迹；这些轨迹提供更丰富的监督信号给奖励模型；改进的奖励模型提供更精确的指导；而这又能帮助发现更复杂任务的解决方案。

实验结果：UI-Genie展现出色表现

研究团队在多个基准测试上评估了UI-Genie的性能，结果令人印象深刻。

在AndroidControl基准测试中，UI-Genie在所有模型尺寸上都优于现有方法。特别是在高级任务上，UI-Genie-Agent-72B达到了77.0%的成功率，比此前最好的UI-TARS高出2.3%。这就像在驾驶考试中，UI-Genie的通过率比最好的竞争对手还要高出一截。

在AndroidLab基准测试中，UI-Genie的表现更加出色。UI-Genie-Agent-7B实现了38.7%的任务成功率，远超包括GPT-4o在内的商业系统和其他开源模型。这相当于在一个复杂的技能测试中，UI-Genie比其他参赛者完成了更多的挑战项目。

在更全面、更具挑战性的Android Agent Arena (A3)在线评估中，UI-Genie同样表现优异，在功能评估和商业LLM评估两种方法下都取得了更高的成功率。

这些结果清晰地表明，UI-Genie的自我改进框架能够有效提升GUI智能体的性能，特别是在复杂任务上的表现。

奖励模型的评估与优势

研究团队还专门评估了UI-Genie-RM的性能。由于目前没有针对GUI智能体奖励模型的标准基准测试，团队创建了一个自定义的评估基准，包含超过1050个样本。

结果显示，UI-Genie-RM在步骤级和结果级评估上都优于所有基线模型，包括GPT-4o、Gemini系列等先进的专有模型。特别是在困难任务上，UI-Genie-RM保持了稳健的表现（步骤级F1分数为68.7%，结果级为70.5%），而其他模型的性能则显著下降。

这说明UI-Genie-RM的特殊架构和训练方法使其特别适合评估复杂的GUI交互，尤其是那些需要理解大量历史上下文的场景。

案例分析：UI-Genie如何解决实际任务

为了更直观地理解UI-Genie的能力，我们来看两个具体例子：