让手机变得更聪明：大型语言模型在手机自动化领域的惊人进展

微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

让手机变得更聪明：大型语言模型在手机自动化领域的惊人进展

作者：科技行者

2025-04-30 13:41

分享至：

想象一下，你只需对手机说一句"帮我订一杯拿铁送到办公室"，手机就能自动打开外卖应用，找到你喜欢的咖啡店，选择拿铁，填写地址，完成支付，一气呵成地完成所有操作。这不是科幻电影中的场景，而是当前大型语言模型驱动的手机图形界面(GUI)代理正在实现的功能。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-04-30 13:41 • 科技行者

今天，让我们来聊一个有趣且具有前瞻性的话题——如何让我们的智能手机变得更加"智能"。2025年4月，浙江大学、vivo AI实验室和香港中文大学联合研究团队发表了一篇全面综述论文《LLM-Powered GUI Agents in Phone Automation: Surveying Progress and Prospects》，系统梳理了大型语言模型(LLM)如何彻底改变手机自动化的现状与未来。论文由刘广毅、赵鹏翔、刘亮等多位研究者共同撰写，发布在arXiv预印本平台（arXiv:2504.19838v1），有兴趣深入了解的读者可以通过项目主页github.com/PhoneLLM/Awesome-LLM-Powered-Phone-GUI-Agents获取更多信息。

一、从僵硬脚本到智能助手：手机自动化的演变历程

在大型语言模型出现之前，手机自动化就像是一位只会照本宣科的机器人管家。你必须事先为它编写详细的操作脚本，比如"先点击这里，再滑动到那里，然后输入这些文字..."。这种传统方法有点像给朋友写一张详细的纸质地图，指导他如何从A点到达B点，但如果路上出现任何变化——比如道路施工或标志牌移动——这张地图就立刻变得毫无用处。

传统手机自动化面临三大核心挑战：

首先是"固定思维"问题。传统自动化方法就像是只会走一条固定路线的出租车司机，一旦遇到道路改道就完全不知所措。例如，一个为特定版本Instagram编写的自动化脚本，在应用更新后界面布局变化时就可能完全失效。这种缺乏适应性让手机自动化的应用场景受到严重限制。

其次是"维护噩梦"。维护这些自动化脚本就像是不断修补一座老房子，费时又费力。每当应用更新界面，你就需要重写脚本。想象一下，你精心设计了一个在社交媒体上自动发布内容的流程，但每次应用更新，你都需要花费数小时重新调整这个流程，这无疑会让很多用户望而却步。

第三个挑战是"理解障碍"。传统系统对复杂指令的理解能力有限，就像是一个只懂得简单指令的宠物。你可以告诉它"打开浏览器"，但无法期望它理解"打开浏览器，去亚马逊网站，购买那款我们昨天讨论过的耳机"这样的复杂指令。

这些限制导致传统手机自动化主要局限于简单的测试场景或基础的快捷操作，无法实现真正智能化的用户体验。就像是拥有一个只会执行预设菜单的厨师，而不是能根据你的口味和现有食材灵活烹饪的大厨。

二、大型语言模型：手机自动化的"思考大脑"

大型语言模型(LLM)的出现彻底改变了这一局面，它们为手机自动化注入了"理解力"和"适应性"。如果把传统自动化比作按指定路线行驶的自动导航系统，那么LLM驱动的手机自动化就像是一位既了解道路规则，又能灵活应对各种道路情况的老司机。

具体来说，LLM为手机自动化带来了三大核心能力：

首先，LLM具备强大的语言理解能力。就像一位精通多国语言的翻译，LLM可以理解用户以自然语言表达的复杂指令，并将其转化为具体的操作步骤。例如，当你说"帮我找一家附近评分高的韩国餐厅并预订今晚7点的位子"时，LLM能够理解这一复杂指令包含查找餐厅、筛选类型和评分、预订特定时间等多个子任务。

其次，LLM拥有多模态感知能力。它不仅能理解文字，还能"看懂"屏幕——理解界面布局、识别按钮和文本框等元素。这就像是一个不仅能听懂你的指令，还能看清楚手机屏幕上所有内容的助手。当传统方法可能因为界面变化而失效时，LLM可以通过观察屏幕实际内容来适应这些变化。

第三，LLM具备强大的推理和决策能力。它不仅能执行预设的操作序列，还能根据当前情况进行推理和决策。就像一位智慧的助手，在遇到意外情况时能够灵活调整策略，而不是简单地放弃任务。例如，当目标应用界面与预期不同时，LLM可以分析当前状态，推理出替代路径，继续完成任务。

这些能力让LLM驱动的手机自动化代理(Phone GUI Agent)能够执行更复杂、更灵活的任务，如跨应用操作、理解上下文相关的指令、适应不同的界面布局等。

三、手机GUI代理的核心框架：感知、思考与行动

研究人员将LLM驱动的手机GUI代理的工作过程比作人类使用手机的方式：先感知屏幕上的内容，然后思考下一步应该做什么，最后执行相应的操作。这一过程可以用部分可观察马尔可夫决策过程(POMDP)这一数学模型来描述，将手机界面的变化视为一系列状态转换。

感知模块：代理的"眼睛"

感知模块就像是代理的"眼睛"，负责收集界面信息，主要包括两类信息：

UI信息采集主要有三种方式。第一种是UI树，它就像是网页的HTML结构，记录了界面上每个元素的类型、位置和属性。DroidBot-GPT和AutoDroid等系统使用这种方法。第二种是截图，直接捕获屏幕的视觉内容，被Auto-GUI和CogAgent等系统采用。第三种是标记集(Set-of-Mark)，它在截图上标注出可交互元素的位置和编号，方便代理引用，MM-Navigator和AppAgent就采用了这种方法。

此外，代理还需要感知手机状态，如键盘是否激活、电池电量、网络状况等，这些信息帮助代理做出更合适的决策。就像驾驶员不仅需要观察道路，还需要关注车辆仪表盘上的各项指标一样。

思考模块：代理的"大脑"

思考模块是代理的"大脑"，负责处理感知信息并制定行动计划。它包含两个关键部分：

存储系统包括记忆和知识库。记忆记录了历史交互信息，就像人类的短期记忆，帮助代理保持对话和任务的连续性。知识库则包含预训练知识、领域特定知识和注入的知识，相当于人类的长期记忆和专业知识，帮助代理理解手机界面和应用功能。

决策机制则是代理的核心"思考过程"，包括规划、推理和反思。规划就像是制定旅行路线，决定完成任务的步骤顺序。推理则像是在陌生城市导航，根据观察到的信息和已有知识推断当前位置和下一步方向。反思则像是旅行中的自我纠正，评估已执行操作的效果，调整后续计划。

行动模块：代理的"手"

行动模块就像是代理的"手"，负责在手机界面上执行操作。这些操作大致可分为五类：

触摸交互包括点击、双击和长按等基本操作，就像人类用手指与触摸屏交互一样。

手势操作包括滑动、缩放和拖拽等复杂动作，相当于更精细的手指动作。

文本输入负责在输入框中输入文字或选择文本，就像使用虚拟键盘打字。

系统操作包括启动应用、更改设置和导航菜单等与系统交互的行为。

媒体控制则专注于播放、暂停和调节音量等媒体相关操作。

代理通过结合这些操作，可以像人类一样完成复杂任务，如在外卖应用中订餐、在导航应用中规划路线、在购物应用中比较商品等。

四、手机GUI代理的架构类型：从独行侠到团队合作

根据结构复杂度和任务分工方式，LLM驱动的手机GUI代理可以分为三种主要架构：单代理架构、多代理架构和计划执行架构。

单代理架构：独立完成所有工作

单代理架构就像是一个全能的独行侠，一个代理负责感知、思考和行动的全部工作。例如，AutoDroid、MM-Navigator和Mobile-Agent等系统都采用这种架构。这种架构简单直接，实现难度较低，但也有局限性——当任务变得复杂时，一个"大脑"可能难以同时处理多方面的挑战。

就像一个人既要开车、导航，又要回复短信，同时还要找停车位一样，当任务复杂度增加时，单代理容易出现"认知超载"的情况。

多代理架构：分工合作的团队

多代理架构则是一个分工明确的团队，每个成员负责特定任务。这种架构又可分为两类：

基于角色的多代理架构中，每个代理扮演特定角色，如规划者、决策者和反思者等。Mobile-Agent-v2就使用了这种架构，其中规划代理负责制定任务计划，决策代理执行具体操作，反思代理评估执行效果并提出改进建议。这就像是一个由项目经理、执行人员和质检专员组成的团队，各司其职又相互配合。

基于场景的多代理架构则根据不同场景或任务领域部署专门的代理。MobileExperts系统采用这种方法，为购物、导航、编程等不同场景训练专门的代理。这就像是拥有不同领域专家的顾问团队，根据任务性质调用相应专家的建议。

多代理架构通过分工协作提高了处理复杂任务的能力，但也增加了系统复杂度和代理间协调的难度。

计划执行架构：先规划再执行

计划执行架构采用"先想后做"的策略，明确将任务分为规划和执行两个阶段。在规划阶段，代理制定详细的操作计划；在执行阶段，另一个模块将计划转化为具体操作。SeeAct、UGround和Ponder & Press等系统采用这种架构。

这种架构就像是先制定详细的旅行计划，然后根据计划一步步执行。它的优势在于可以在执行前优化计划，减少错误，但也可能在面对意外情况时缺乏灵活性。

五、LLM应用于手机自动化的方法：提示工程与模型训练

研究人员主要通过两种方法让LLM驱动手机GUI代理：提示工程和模型训练。这两种方法就像是教导同一个学生的两种方式——一种是直接给予详细指导，另一种是通过系统化训练培养能力。

提示工程：巧妙的"对话指导"

提示工程就像是给LLM一份详细的"使用说明书"，告诉它如何理解手机界面和执行操作。这种方法不需要修改模型本身，只需要设计合适的提示语。

基于文本的提示方法只使用文字描述UI信息。例如，DroidBot-GPT将UI树转换为自然语言描述，告诉模型："屏幕上有一个名为'搜索'的按钮，位于顶部..."。这种方法就像是通过电话指导朋友操作电脑，只能用语言描述屏幕内容。

多模态提示方法则同时使用文字和图像。例如，Mobile-Agent将屏幕截图与文字描述结合，让模型既能"看到"屏幕，又能理解文字说明。这种方法就像是视频通话指导，既能说明又能展示，更加直观有效。

在实际应用中，MM-Navigator和AppAgent等系统使用了标记集(SoM)技术，在截图上标注UI元素编号，方便模型引用；而Mobile-Agent和MobileExperts则直接让模型输出点击坐标，实现更精确的操作。

模型训练：系统化的"能力培养"

模型训练方法通过额外训练让LLM更好地理解和操作手机界面。这种方法需要专门的数据集和训练过程，但能获得更专业的能力。

任务特定模型架构是为GUI任务专门设计的模型。例如，Auto-GUI开发了支持高分辨率输入的多模态模型，CogAgent集成了能识别小文本和图标的视觉处理能力，UI-Hawk专注于理解屏幕序列间的关系。这些就像是专门培养的手机UI专家，在特定任务上表现出色。

监督微调通过标注数据集训练模型完成特定任务。例如，SeeClick通过GUI定位预训练增强了模型的界面理解能力，GUI Odyssey针对跨应用场景进行训练，使模型能够在多个应用之间自如切换。这就像是通过大量示范教会学生完成特定操作。

强化学习则让模型通过与环境交互自主学习。DigiRL和DistRL等系统让模型在真实手机环境中探索和学习，逐步提高操作准确性。这就像是让学生通过实践和试错来掌握技能，而不是仅仅观看示范。

六、数据集与基准：评估和推动进步的基石

就像任何科学研究领域一样，手机GUI代理的发展离不开高质量的数据集和评估基准。这些资源就像是运动员的训练场和比赛规则，既提供学习材料，又设定评判标准。

数据集：训练的"营养"

Rico是最早的大规模手机界面数据集，包含近万款应用的界面截图和UI树，为后续研究奠定了基础。它就像是手机界面的"百科全书"，提供了丰富多样的示例。

PixelHelp和MoTIF等数据集则关注自然语言指令与UI操作的映射，帮助模型学习将"打开设置"这样的指令转化为具体点击操作。这就像是"听指令做动作"的训练素材。

AITW和AITZ则提供了真实人类操作手机的大规模记录，让模型能学习模仿人类的操作习惯。这相当于观看大量"专家示范视频"来学习技能。

GUI Odyssey专注于跨应用场景，涵盖201个应用和约1400种应用组合，帮助模型学习在多个应用间切换完成任务。这就像是训练"多项全能"运动员的综合课程。

MobileViews是目前最大的手机GUI数据集，为研究提供了前所未有的规模和多样性。它就像是一个巨大的"训练图书馆"，几乎涵盖了所有可能的手机界面场景。

基准：评估的"标尺"

评估基准就像是统一的"考试"，用于公平比较不同系统的性能。MobileEnv提供了通用的手机交互训练和评估平台；AndroidArena关注复杂Android环境中的大模型评估；LlamaTouch支持真实设备上的移动UI任务执行和评估。

B-MoCA通过随机化设备配置测试模型的泛化能力；MobileAgentBench针对开源应用提供高效评估；而A3则集成了201个常用第三方应用的任务，覆盖真实用户场景。

这些基准测试从不同角度评估代理的任务完成率、操作质量、资源效率、任务理解能力等维度，就像全面评估运动员的力量、速度、耐力和技巧一样，帮助研究人员识别系统的优势和不足。

七、挑战与未来方向：探索的下一站

尽管LLM驱动的手机GUI代理取得了显著进展，但仍面临多方面挑战，这些也指明了未来研究的重要方向。

数据集开发与微调可扩展性

现有数据集在覆盖范围、多样性和真实性方面仍有不足。未来研究应关注开发更大规模、更多样化的数据集，覆盖更广泛的应用、用户行为和设备类型。同时，如AndroidControl研究所示，实现强大的领域外性能可能需要比当前可行的多1-2个数量级的数据，探索更高效的训练方法也是关键。

轻量高效的设备端部署

目前的LLM通常需要强大的计算资源，而移动设备的计算能力和内存有限。像Octopus v2和Lightweight Neural App Control这样的创新表明，通过模型剪枝、量化和高效架构设计，在保持性能的同时大幅减小模型体积和计算需求是可能的。结合专用硬件加速器和边缘计算，未来可能实现更高效的本地部署，减少对云端的依赖，提高隐私保护和响应速度。

以用户为中心的适应性

当前代理通常依赖大量人工干预来纠正错误或引导任务执行。提升代理理解用户意图的能力，减少手动调整，是提升用户体验的关键。同时，实现个性化也至关重要——不同用户有不同的使用习惯和偏好，代理应能快速适应这些差异，无需昂贵的重新训练。结合手动教学、零样本学习和少样本学习，可以帮助代理从最少的用户输入中快速泛化。

可靠性与安全性保障

随着代理获取敏感数据和执行关键任务，可靠性和安全性变得尤为重要。当前系统可能易受对抗性攻击、数据泄露和意外操作的影响。强健的安全协议、错误处理技术和隐私保护方法对保护用户信息和维持用户信任至关重要。数据本地化、加密通信和匿名化等技术可以有效保护用户隐私，同时持续监控和验证可以实时检测漏洞并降低风险。

归根结底：重塑我们与手机的互动方式

回顾整个发展历程，LLM驱动的手机GUI代理正在从根本上改变我们与移动设备的互动方式。从最初的僵硬脚本到今天能理解自然语言、感知屏幕内容、做出智能决策的系统，这一领域的进步令人印象深刻。

想象一下，未来你可能只需对手机说："帮我规划周末旅行，预订酒店和餐厅，并设置提醒。"你的手机就能自动在多个应用间切换，完成所有相关操作，就像一位真正的个人助理。这不再是科幻，而是研究人员正在努力实现的目标。

当然，要实现这一愿景，还需要解决数据集扩展、模型轻量化、用户适应性和安全性等多方面挑战。但随着研究不断深入，LLM驱动的手机GUI代理有望变得更加高效、可靠和个性化，为用户提供无缝、智能的移动体验。

如果你对这个快速发展的领域感兴趣，不妨关注浙江大学、vivo AI实验室和香港中文大学这些研究机构的最新进展，或者访问论文主页获取更多详细信息。未来的智能手机体验，或许比我们想象的要更加智能、便捷和个性化。

分享至