微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

浙江大学出手，打造AI手机助手全套工具链——ClawGUI让机器人真正学会"用手机"

人工智能强化学习GUI智能体

浙江大学出手，打造AI手机助手全套工具链——ClawGUI让机器人真正学会"用手机"

作者：科技行者

2026-04-21 17:17

分享至：

浙江大学发布ClawGUI，一套整合AI手机操控智能体训练、评测与部署的开源框架。它通过强化学习在虚拟和真实手机上训练AI直接操控图形界面，同时建立了跨6个基准、11+模型的标准化评测流水线，并将训练好的AI接入安卓、鸿蒙和iOS及12+聊天平台供真实用户使用。基于该框架训练的ClawGUI-2B模型在MobileWorld测试中以17.1%成功率超越参数量大36倍的同类模型。论文编号arXiv:2604.11784。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-04-21 17:17 • 科技行者

这项由浙江大学多个团队联合开展的研究，以预印本形式发布于2026年4月，论文编号为arXiv:2604.11784，有兴趣深入了解技术细节的读者可以通过该编号检索完整论文。

手机屏幕是现代人生活的核心战场。打开微信、刷视频、订外卖、设置闹钟——这些日常操作对人来说轻而易举，但对AI来说却是一座难以翻越的高山。不像让AI写文章或回答问题，操控手机需要AI真正"看懂"屏幕，然后用手指去点击、滑动、输入文字，就像一个真实的人类用户在使用手机一样。这类能够像人一样操作图形界面的AI，被研究者称为"GUI智能体"（Graphical User Interface Agent）。

过去两年里，这个领域的研究像雨后春笋般涌现，但有一个让所有研究者头疼的问题始终没有解决：大家各自做研究、各自跑实验、各自报告数字，却没有一套统一的工具链把训练、评测和实际部署串在一起。就好像厨师们各自研发菜谱，但厨房设备不通用、食材计量不统一、菜端上桌的方式也各不相同——最终没人能比较谁做的更好，更没法让普通食客真正吃到这道菜。

浙江大学的研究团队正是为了解决这个问题，开发了ClawGUI这套完整的工具链。它的名字暗含"爪子"之意，象征着AI用爪子（手指）去抓取和操控手机屏幕。这套框架把训练AI、测试AI、把AI部署到真实手机上这三件事，统统装进了同一个工具箱，让研究者和普通用户都能从中受益。

一、为什么给AI教会"用手机"这么难？

在正式介绍ClawGUI之前，需要先搞清楚这个问题：为什么训练一个会操作手机界面的AI，比想象中困难得多？

回到厨房的比喻。假设你要训练一个厨师学徒，需要三件事同时到位：一是要有一个真实的厨房让他练手（这是"训练环境"的问题）；二是要有一套公平的评分标准判断他做得好不好（这是"评测"的问题）；三是要有办法让他毕业后真的去餐厅工作（这是"部署"的问题）。现有的GUI智能体研究，这三件事全都卡壳了。

在训练环境方面，目前确实有一些研究团队使用强化学习（Reinforcement Learning，简单理解就是让AI通过反复试错来学习，成功了给奖励，失败了扣分）来训练GUI智能体，效果也不错。但这些团队都没有公开自己的训练系统，外界无法复现。更严重的是，所有训练都在虚拟手机模拟器里进行，没有人尝试在真实物理手机上训练。而且手机模拟器本身非常脆弱，跑着跑着就会崩溃，训练过程极不稳定。

在评测方面，问题同样棘手。各个论文报告的数字根本没法互相比较——同一个AI模型，用不同的提问方式、不同的图片分辨率、不同的坐标计算方式，得出的测试分数可以差好几个百分点。一篇论文说自己的AI在某个测试集上提高了2%，但谁也不知道这2%是真的进步，还是换了一种更巧妙的提问方式带来的。

在部署方面，就更惨了。实验室里训练好的AI几乎从来不会真正出现在普通用户手中。研究者要么把代码放在GitHub上等别人自己折腾，要么只支持某一款安卓手机，换个系统就不行了，更谈不上什么个性化记忆或者跨平台使用。

ClawGUI就是为了同时堵上这三个漏洞而生的。

二、训练场：给AI搭建一个稳定的手机练习室

ClawGUI的第一个核心模块叫做ClawGUI-RL，专门负责训练AI。RL是"Reinforcement Learning"的缩写，也就是强化学习的意思。

这套训练系统最核心的设计是一个"环境管理器"，可以理解为一个能同时管理几十个虚拟手机的调度员。训练的时候，这些虚拟手机同时运行，每台手机都在执行不同的任务，AI则在这些任务中反复练习。每当一台虚拟手机崩溃或者卡死，调度员就会自动把它替换成一台新的备用机器，确保训练不会中断。这个设计解决了之前虚拟环境容易崩溃导致训练失败的老大难问题。

更难得的是，ClawGUI-RL是第一个公开支持在真实物理手机上训练的系统。在真实手机上训练和在模拟器里训练有本质的区别。模拟器里，研究者可以直接读取手机系统的底层数据来判断任务是否完成——比如直接查看数据库里有没有新增一条联系人记录。但真实手机没有这个权限，没法直接读取系统数据。ClawGUI-RL的解决方案是让另一个强大的多模态AI来当"裁判"，通过观察任务执行完成后的手机截图，判断AI有没有把事情做对。这个裁判AI就像一个监考老师，看着屏幕上的最终结果来打分，不需要翻看学生的考试过程。

在奖励设计上，ClawGUI-RL采用了一种非常聪明的双层奖励机制。基础层是一个简单粗暴的二元判断：任务完成给1分，失败给0分。但问题在于，操控手机往往需要十几步甚至几十步操作，只在最后告诉AI"你失败了"，AI根本不知道是哪一步走错了，就像考试只给最终成绩而不告诉你错在哪道题。

为了解决这个问题，ClawGUI-RL引入了"过程奖励模型"（Process Reward Model，PRM）。这个模型会在AI每执行一步操作之后，立刻评判这步操作有没有朝着目标方向前进。比如AI要发一条微信消息，先打开微信应用——好，这步方向对了；然后找到目标联系人——好，继续前进；接着点击输入框——对；最后输入内容并发送——完成！整个过程中每一步都有即时反馈，而不是等到最后才知道对错。这样AI就能学到哪些中间操作是有价值的，哪些是在浪费时间。

在具体的训练算法选择上，ClawGUI-RL同时支持两种方法：GRPO和GiGPO。可以把GRPO理解为"按轨迹打分"——整段操作完成后，把这段操作整体与其他尝试比较，评出高下。这对短任务很管用，但对于需要几十步操作的复杂任务，就显得太粗糙了。GiGPO则更精细，它会把不同尝试中遇到相同中间状态的操作步骤归组，分别比较每个节点上各个AI的选择孰优孰劣，从而给出更细粒度的评分。这就好比教练不只看运动员最终跑了多少分钟，还会分析每一个弯道上的跑姿是否标准。

三、考场：让AI测试成绩真正可比较

训练好了AI之后，怎么知道它究竟有多强？这就需要ClawGUI的第二个核心模块——ClawGUI-Eval，一个标准化评测流水线。

这个模块的核心理念是：把整个评测过程拆成三个严格分离的阶段，分别是"推理""评判"和"计算指标"。就像流水线上的三个工位各司其职，任何一个工位出了问题都可以单独返工，而不需要把整条流水线全部重跑一遍。

第一个工位"推理"负责让AI模型看题作答，生成原始预测结果。这个工位支持两种接入方式：一种是在本地GPU上直接运行模型，另一种是通过API远程调用模型。多块GPU可以并行工作，而且如果中途断了，可以从断点续跑，不需要从头开始。第二个工位"评判"负责把AI的答案和标准答案对比，判断每道题对不对。针对不同类型的题目，有专门的评判逻辑。比如标准的GUI定位题，判断AI点击的坐标是否落在目标元素的范围框内；针对多步操作题，则有专门的多步骤评判器。第三个工位"计算指标"把所有判断结果汇总成最终分数，并且按照平台类型、界面元素类别、任务类型等不同维度细分，让研究者能看清楚AI到底在哪些地方强、在哪些地方弱。

ClawGUI-Eval覆盖了6个主流评测基准，包括ScreenSpot-Pro（专注于高分辨率桌面界面的定位测试）、ScreenSpot-V2、UI-Vision（桌面GUI的视觉感知与交互测试）、MMBench-GUI（多平台层次化评估）、OSWorld-G（操作系统级别的界面定位）以及AndroidControl（安卓端的操作控制）。同时支持超过11个主流AI模型，涵盖Qwen3-VL、Qwen2.5-VL、UI-TARS、MAI-UI、GUI-G?、UI-Venus、GUI-Owl、StepGUI、Gemini以及Seed 1.8等。

为了验证这套标准化流水线的可靠性，研究团队把自己重新跑出来的成绩与各个模型官方公布的数字逐一对比，结果达到了95.8%的复现率——也就是说，在有官方数字可以对比的48组数据中，46组的误差在2%以内或超过官方数字。这个成绩相当漂亮，基本证明了ClawGUI-Eval的标准化做到位了。

仅有两组复现失败，恰恰发生在那些没有公开评测配置细节的模型上。这个发现本身就很有说服力：GUI评测的可重复性问题，根子在于配置细节没有透明化，而不是评测这件事本身就无法标准化。

对于无法直接调用的闭源商业模型，研究团队还设计了一种叫"缩放范式"（Zoom paradigm）的两阶段处理方法。简单说就是先把高分辨率大图切成多个小块分别送给模型看，再从各个小块的定位结果还原到整张图上的坐标。用Gemini模型测试时切成25%大小的瓦片，用Seed模型时切成50%的瓦片，这样处理后成功复现了官方数字，而且完全不需要接触模型内部结构。

四、出门上岗：把训练好的AI真正装进手机

前两个模块解决了训练和评测的问题，第三个模块ClawGUI-Agent要解决最后一公里的问题：把AI真正送到用户手中，在真实手机上为真实用户服务。

这个模块支持安卓、鸿蒙和iOS三大手机操作系统，同时接入了包括飞书、钉钉、Telegram、Discord、Slack、QQ在内的超过12个聊天平台。用户只需要在自己日常用的聊天软件里给AI发一条消息，AI就能去操控手机完成任务，执行完后把结果回复给用户。这就好像你有一个远程秘书，你在微信里说"帮我订一张明天去上海的高铁票"，秘书就用你的手机把这件事办完，然后告诉你票已经订好了。

ClawGUI-Agent还支持两种控制模式。"远程控制模式"是你用另一台设备通过聊天软件来控制目标手机，适合需要远程管理手机的场景。"本地控制模式"则是直接在手机本身上运行的聊天软件里发指令，AI直接接管这台手机操作，不需要额外的硬件或云端中继。

在操控手机的具体方式上，ClawGUI-Agent采取了一种"CLI+GUI混合控制"策略。CLI是命令行界面（Command Line Interface）的缩写，可以理解为通过程序代码直接给手机系统下命令，效率极高，一条指令就能完成普通用户需要点击好几个页面才能完成的操作。GUI控制则是像人一样去看屏幕、点按钮、滑屏幕，覆盖范围更广，任何应用都能控制，但需要的步骤更多。这两种方式各有优劣，ClawGUI-Agent的策略是优先用CLI处理有程序接口的任务，遇到没有程序接口的应用再切换到GUI控制。这种混合策略既保留了CLI的高效，又确保了GUI的广覆盖。

ClawGUI-Agent还有一个个性化记忆系统，是整个框架中相当有温度的一个设计。AI在执行任务的过程中，会自动从互动中提取结构化信息，比如你常用的应用、你的联系人关系、你的使用习惯和偏好，然后把这些信息以向量嵌入的形式存储起来。下次你再发指令的时候，系统会检索出与当前任务最相关的历史记忆，注入到AI的上下文里，让AI能认出你说的"我妈"是指哪个联系人，知道你每天早上9点开会，知道你偏好用某个外卖平台。重复的记忆条目会被合并而不是累积，确保记忆库保持精简和相关性。

更有趣的是，ClawGUI-Agent把前面介绍的评测模块ClawGUI-Eval也打包成了一个可以直接调用的"技能"。研究者不需要写任何代码，只要对着聊天窗口说一句"帮我评测Qwen3-VL在ScreenSpot-Pro上的表现"，系统就会自动完成环境检查、启动多GPU并行推理、运行评判器、计算指标、生成报告这一整套流程，最后把结构化的成绩单发给你，还附上与官方数字的对比。

五、训练成果：用2B参数的小模型超越72B的大模型

ClawGUI-2B是研究团队在这套框架里端到端训练出来的一个成果模型，基于MAI-UI-2B（一个由行业团队发布的2B参数基础模型）继续用强化学习训练而来。训练使用了64个并行虚拟手机环境，运行在8块A6000 GPU上，采用GiGPO算法，批次大小为8，训练了3个轮次。步级奖励的评判工作交给Qwen3.5-72B这个大模型来完成。

评测在MobileWorld基准上进行，这是一个在线交互式测试集，专门用来衡量GUI智能体完成真实移动端任务的端到端能力。研究团队重点关注其中的"GUI-Only"分组，共117个任务，要求AI纯靠视觉操控完成真实手机上的任务，不借助任何程序接口。成功率的定义很直接：AI在规定步数（最多50步）内完成任务就算成功。

ClawGUI-2B在这个测试上取得了17.1%的成功率。这个数字乍看不高，但对比其他选手就很能说明问题了。同等参数规模的MAI-UI-2B只有11.1%，ClawGUI-2B比它高出整整6个百分点，而且两者的起点是同一个基础模型，差距完全来自ClawGUI-RL这套训练基础设施的贡献。

更引人注目的对比来自那些体量大得多的模型。Qwen3-VL-32B是ClawGUI-2B的16倍大，成绩却只有11.9%。UI-Venus-72B是ClawGUI-2B的36倍大，成绩也只有16.4%，还比ClawGUI-2B低了0.7个百分点。换句话说，一个经过精良训练的2B小模型，在真实手机操控任务上能打败36倍于自身体积的模型，这件事本身就很有意义——说明在这个领域，训练方式的质量比模型的原始参数量更重要。

当然，顶部还有一个完全不同的竞争梯队：把超强的商业大模型（如Gemini-3-Pro、GPT-5、Claude-4.5-Sonnet）和专门的界面定位小模型组合在一起的"框架型方案"，成绩最高能到55.6%。但这类方案依赖闭源的商业模型，无法自己端到端训练，更适合作为参考对象而不是竞争对手。

在GRPO和GiGPO的对比测试中，两者使用完全相同的其他设置，唯一差别在于奖励的粒度。GRPO只给每条轨迹整体打分，成绩是14.5%；换成GiGPO之后，成绩提升到17.1%，相对提升幅度达到17.9%。这个对比直接证实了一件事：在需要几十步操作的复杂任务中，每一步的细粒度信用分配对于AI的学习质量有实质性影响，不是细枝末节。

说到底，ClawGUI做的事情看起来像是在修缮工具箱，而不是发明一件惊天动地的新武器。但正是这种扎扎实实的基础设施建设，往往才是推动一个领域真正成熟的关键。GUI智能体这个领域已经有很多聪明的想法和模型，缺的恰恰是一个大家都能用、都能对比、都能把成果真正送到用户手里的统一平台。

这对于普通用户意味着什么？最近几年，AI助手的能力已经让很多人感到震惊，但"能和你聊天"和"能替你操作手机"之间还有很长的距离。ClawGUI这套框架的价值，在于它把这条路上最难走的几段工程问题都铺平了，让后续的研究者可以踩着这块基石继续往前走。按照这个方向发展下去，在不远的未来，一个真正能在手机上替你处理日常杂务、记住你的习惯、跨多个平台无缝工作的AI助手，变得更加可期。

如果你对这套框架的技术细节感兴趣，可以通过论文编号arXiv:2604.11784找到完整论文，所有代码也已开源在GitHub上的zju-real/ClawGUI仓库。不妨思考一个问题：当AI真正能像人一样熟练操控手机之后，你最希望它帮你处理哪件日常杂事？

---

Q&A

Q1：ClawGUI和普通的AI手机助手有什么区别？

A：普通AI手机助手（比如Siri或小爱同学）主要靠调用系统级API完成任务，覆盖范围有限。ClawGUI训练出来的GUI智能体是直接"看屏幕、点按钮"来操控手机，和人类用手机的方式一样，理论上可以操作任何应用，不需要应用开放专门的接口。ClawGUI还是一套完整的研究工具链，同时解决了训练、评测和部署三个环节的问题。

Q2：ClawGUI-2B成绩只有17%，是不是表现很差？

A：这个数字需要放到具体背景里理解。MobileWorld GUI-Only测试的117个任务要求AI纯靠视觉操控完成真实手机操作，任务难度相当高。17.1%的成绩在同等规模的开源端到端模型里处于领先位置，比参数量大得多的Qwen3-VL-32B（11.9%）和UI-Venus-72B（16.4%）都要高。顶部成绩超过50%的方案依赖闭源商业大模型，不在同一个可比较的类别里。

Q3：GiGPO和GRPO的区别对普通用户有影响吗？

A：直接影响不大，但间接影响明显。GiGPO通过给每一步操作单独打分，让AI学得更精准，最终体现在任务完成率上——同样的训练资源和基础模型，用GiGPO训练比用GRPO训练成功率高了约17.9%（从14.5%到17.1%）。对于普通用户来说，这意味着AI更少在中途走弯路，完成任务的概率更高、速度更快。

人工智能强化学习GUI智能体

分享至