微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

阿里巴巴与港大联手：他们造了一个AI"健身房"，让电脑操作机器人在里面刻苦练功

计算机操作智能体强化学习数据合成仿真环境构建

阿里巴巴与港大联手：他们造了一个AI"健身房"，让电脑操作机器人在里面刻苦练功

作者：科技行者

2026-06-01 14:33

分享至：

本研究提出CUA-GYM，一套能自动生成电脑操作AI强化学习训练数据的流水线，并构建94款仿真网页应用，最终生成32112条验证数据，将模型在OSWorld-Verified上的表现提升至72.6%。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-06-01 14:33 • 科技行者

这项研究来自香港大学、阿里巴巴Qwen团队、加州大学圣地哥分校及清华大学的联合研究团队，论文以预印本形式于2026年5月25日发布，编号为arXiv:2605.25624v1，有兴趣深入了解的读者可通过该编号查询完整论文。

一、一个反复困扰AI研究者的老问题

每当我们拿起手机或坐到电脑前，我们与软件之间的互动是如此自然——点击、输入、滚动、截图——以至于我们几乎感觉不到这背后有多少隐形的"体力劳动"。然而，对于AI研究者来说，训练一个能像人类一样操作电脑的智能体，一直是一件极其麻烦的事情。

以训练AI学习数学或写代码为例，研究者只需给它海量的题目，然后看答案对不对，错了就惩罚，对了就鼓励。这套简单直接的"做题-批改"流程，已经让AI的数学和编程能力突飞猛进。但训练一个能操作电脑的AI——比如让它打开邮件客户端、找到某封邮件、把附件存到指定文件夹——就复杂多了。这类任务需要三样东西同时到位：一份清晰的任务指令（告诉AI要做什么）、一个可以运行的电脑环境（AI在里面实际操作）、以及一个能自动判断AI做得对不对的评分程序（不能每次都靠人工批改）。

把这三样东西凑齐、配套、还要保证质量，靠人工来做的话，每个任务要花数小时的专家时间。更要命的是，你每换一款软件，就得重新设计一套环境和评分方案。正是这道坎，让AI操作电脑的训练数据始终少得可怜，远远达不到让AI能力腾飞所需的规模。

这就是研究团队要解决的核心问题：能否让机器自动造出这三样东西，而且质量还得过关？

二、训练AI的"健身房"是怎么盖起来的

研究团队给这套系统取名CUA-GYM，其中CUA是Computer-Use Agent（电脑操作智能体）的缩写，GYM就是健身房的意思。这个名字很贴切：他们造的不是一道题目，而是一整个让AI反复练习的训练场所。

CUA-GYM的核心思路，是用AI来帮AI造训练数据。具体来说，系统从一份"话题说明"出发，同时生成三样东西：任务指令、环境状态和评分函数。这三样东西不是各自独立生成，而是像一个紧密协作的团队一样，互相校验、互相配合。

整个流程由三个AI代理分工合作。第一个叫"生成器"，负责搭建两套电脑环境：一套是任务开始前的初始状态（比如邮件收件箱里空空如也），另一套是任务完成后应有的理想状态（比如邮件已成功发出、附件已保存）。这两套环境分别运行在两台隔离的虚拟机上，生成器通过写Python脚本来创建和修改这些环境中的文件、配置和数据。

第二个叫"判别器"，负责写评分函数。关键在于，判别器被严格隔离：它看不到生成器写的任何脚本，也不能直接读取环境里的文件，只能通过一个受限的"状态查询接口"来观察两套环境的表现，以及读取任务指令本身。判别器必须凭借对任务本身的理解，独立推断出"任务完成"意味着什么，然后用代码把这个判断标准写出来。

第三个叫"协调器"，扮演监工角色。它不断检查五个关键条件是否同时满足：初始环境的脚本能正常运行、理想环境的脚本能正常运行、评分函数在理想环境里打出满分1.0、评分函数在初始环境里打出零分0.0、评分函数里没有任何作弊嫌疑的代码模式。只要有一条不满足，协调器就把失败的具体原因反馈给生成器或判别器，让它们修改，然后重新跑一遍，最多跑五轮。

这套"对抗式"设计的妙处在于，生成器和判别器各自有动机做好自己的活儿，却又互相制约。假如没有信息隔离，判别器可能会偷懒地直接检查生成器写的代码逻辑，而不是真正验证任务是否完成——这样生成的评分函数会像一把只能开自己家门的钥匙，在训练时毫无意义。信息隔离强迫判别器从任务语义出发，写出真正有区分度的评分标准。

通过这套流程生成的数据，还要经过两道额外的质量关卡。第一道是多个不同AI模型组成的"评审团"，从一致性、可执行性、作弊风险、表达清晰度和难度校准五个维度投票，超过半数认可才能通过。第二道是用一个强大的"教师模型"（研究团队使用了Claude Sonnet 4.6）真正去执行这些任务，验证任务是否可解、评分函数是否准确追踪了完成情况。

三、专门为AI练功造的"模拟城"

健身房光有训练计划还不够，还得有足够多的场地。研究团队发现，制约电脑操作AI训练规模的另一个瓶颈，是可用的软件环境太少。现实世界的网站需要登录、有访问限制、状态不可复现，根本没法用来做强化学习训练。而现有的研究基准测试集，也只覆盖了少数几款常见软件，远远不够。

为此，研究团队同步建造了CUA-GYM-HUB——一套由94款"仿真网页应用"组成的虚拟软件城。这些应用的外观和交互逻辑都尽量还原了真实软件（比如Slack、Notion、Salesforce、GitHub、Shopify等），但抹掉了所有真实软件的麻烦之处：没有登录验证、没有网络请求、所有数据都存在本地内存里，可以随时注入、查询和重置。

每个仿真应用都暴露了一套统一的HTTP接口，支持四种操作。通过POST /post接口，可以向应用注入指定的初始状态；通过GET /go接口，可以查询初始状态和当前状态之间的差异；通过GET /state接口，可以读取当前的完整状态；通过POST /upload接口，可以上传附件文件。每次训练任务都会生成一个独立的会话ID，不同任务之间的状态互不干扰，这样就可以让数千个AI训练实例同时跑在同一套仿真软件上，互不影响。

这94款仿真应用的选择不是随机的，而是参考了两份权威的现实依据。一份是美国劳工部的O*NET职业数据库，梳理了不同职业的数字化工作流程，从管理岗到法律岗，从IT岗到电商岗，覆盖了知识工作者日常接触最多的软件类型。另一份是Anthropic公司发布的经济指数，提供了各类软件在实际工作中被使用的频率权重，让高频使用的软件获得更多的环境覆盖。

这些仿真应用本身是由另一套三代理流水线自动生成的。规划代理负责搜集真实软件的产品截图和文档，输出完整的设计说明；开发代理根据说明用React框架编写单页应用；测试代理用自动化浏览器脚本把应用里每一个可点击的元素都测一遍，把发现的问题反馈给开发代理修复，如此迭代直到测试通过。最终每款应用还会配套生成一份SKILL.md文档，详细记录该应用的状态接口、常见陷阱和评分模板，供后续生成训练任务时调用。

四、练出来的AI有多厉害

用CUA-GYM生成的数据，研究团队最终积累了32112条经过验证的训练样本，涵盖110个软件环境，其中16个是真实的桌面软件（如LibreOffice、Chrome、GIMP、VSCode等），94个是CUA-GYM-HUB里的仿真网页应用。

研究团队用这批数据训练了两个规模的AI模型，都来自阿里巴巴的Qwen3.5系列：较小的A3B模型（激活参数30亿）和较大的A17B模型（激活参数170亿）。训练算法采用了GSPO——一种专为大型混合专家模型设计的强化学习算法，比常见的GRPO在训练稳定性上更有优势。

在OSWorld-Verified这个专门评测电脑操作能力的标准测试集上，A3B模型从训练前的54.5%提升到了62.1%，提升了7.6个百分点；A17B模型则从62.2%飙升至72.6%，提升了10.4个百分点。更有趣的是，训练后的小模型A3B（激活参数约30亿）达到了训练前大模型A17B（激活参数约170亿）的表现水平——也就是说，用好数据训练出来的小模型，能顶上一个参数量大十倍的未训练模型。

分软件类别来看，提升幅度最大的是跨应用工作流——就是那种需要同时操作多个软件的复杂任务，A3B模型在这类任务上的成功率提升了21.5个百分点。LibreOffice Calc的提升也相当显眼，达到14.9个百分点。

更能说明问题的是，这两个模型在WebArena这个完全没有参与训练的网页操作基准上，也出现了提升——A3B从40.8%提升到44.5%，A17B从54.0%提升到56.0%。这说明在仿真环境里练出来的技能，能真正迁移到真实的网页环境中，而不是只会在练习场里表演。

五、数据越多、场景越广，AI就越强

研究团队还通过一系列受控实验，验证了两个重要的规律性结论。

第一个规律是数据量与训练效果之间的关系。研究团队用相同的初始模型，分别在1400条、3000条和12000条训练样本上做了对比实验，其他所有条件保持一致。结果非常清晰：三条训练曲线从始至终保持了稳定的上下层次关系，数据越多、模型最终达到的天花板就越高、并且攀升得更快。特别值得关注的是，12000条数据的那条曲线直到实验结束也没有出现明显的"趋于饱和"迹象，这意味着如果继续加数据，模型应该还能继续提升。

第二个规律是软件环境多样性与训练效果之间的关系。研究团队设计了一个对比实验：在总数据量相同的情况下，比较"少量环境、每个环境大量练习"和"大量环境、每个环境少量练习"两种策略的效果。具体来说，他们比较了"10个环境各练300次"和"80个环境各练38次"的结果。结论出人意料：环境更广泛的那组，虽然每个环境只练了前者的八分之一，但最终测试成绩反而更高。这说明让AI接触更多种类的软件和场景，比在少数几个软件上深度重复练习更有价值。

六、一个没有刻意设计却自然出现的节省技能

研究团队在训练过程中还观察到了一个没有主动设计、却自然涌现出来的现象，让他们颇为惊喜。

训练开始时，AI每次出手只发一个动作——点一下、输入一个字符、滚一下页面——然后等待截图反馈再决定下一步。但随着强化学习的推进，AI开始把多个动作打包在同一次"出手"里发出来。比如原本需要三步的"点击文件菜单→点击导出→点击PDF"，AI学会了把它们合并成一次输出。到训练稳定后，AI每次出手平均包含了1.4到1.9个动作，整个任务轨迹的长度缩短了33%到45%。

研究团队分析认为，这种行为来自强化学习的激励结构：每个任务都有步数上限，在步数预算内完成任务的AI能获得更高的相对奖励。这就像一个限时比赛，学会了"连招"的选手天然比只会"单招"的选手更有效率。AI自发学会了判断哪些动作可以安全地批量执行、哪些动作需要先看清楚结果再决定——比如连续的菜单点击可以合并，但需要等网络响应或确认弹窗的操作就不能合并。

这种效率提升不仅节省了训练时间，在实际部署时也意味着更快的响应速度，纯粹是强化学习在没有额外指引的情况下自行发现的一种工作方式。

说到底，CUA-GYM这项工作最核心的价值，是打通了一条让AI操作电脑的训练数据工厂化生产的路子。此前，数据稀缺一直是制约电脑操作AI发展的根本瓶颈，就像一家工厂有了机器和工人，却找不到足够的原材料。CUA-GYM相当于把原材料的挖矿和冶炼都自动化了——只要给定话题，它就能源源不断地产出高质量、可验证的训练数据，而且质量关卡是程序化而非依赖人工的。

对于普通用户来说，这意味着未来那些能帮你自动完成工作的AI助手——不管是帮你整理电子表格、发邮件、填报销单还是管理项目——背后的训练体系有了更可靠的规模化路径。当然，目前的仿真环境与真实软件之间还存在差距，复杂的权限管理、网络延迟、意外弹窗这些真实世界的"意外"还不在训练范围之内。但研究团队已经把完整的流水线、数据集、仿真环境和训练好的模型全部开源，这意味着整个研究社区都可以在此基础上继续推进。值得思考的是，当训练数据的生产本身也被AI自动化了，AI能力的进化速度会不会因此而加快？这个问题的答案，或许在接下来几年里就会变得清晰。

Q&A

Q1：CUA-GYM生成的训练数据为什么要把"生成器"和"判别器"隔离开来？

A：如果两个代理共享信息，判别器可能直接检查生成器的代码逻辑而不是验证任务是否真正完成，这样写出来的评分函数相当于作弊——只检测自家"答案"的格式，而非真实的任务结果。信息隔离强迫判别器从任务语义出发独立推断评分标准，确保训练信号真实有效。

Q2：CUA-GYM-HUB里的仿真应用和真实软件有什么区别？

A：CUA-GYM-HUB里的仿真应用去掉了登录验证、网络请求和跨账号权限等在训练中无法控制的因素，数据存储在本地内存中，可以随时注入初始状态和重置。外观和交互逻辑尽量还原了Slack、Notion等真实软件，但实质上是一个可编程的"沙盒"，方便AI训练时精确控制和评估。

Q3：OSWorld-Verified测试集是用来测什么能力的？

A：OSWorld-Verified是一个专门评测电脑操作AI能力的标准基准，里面的任务涵盖LibreOffice办公套件、Chrome浏览器、GIMP图像编辑、VSCode代码编辑、系统操作以及跨应用工作流等多个类别，要求AI通过截图观察界面、发出鼠标键盘指令来完成真实的电脑操作任务，最终以任务成功率作为评分标准。

计算机操作智能体强化学习数据合成仿真环境构建

分享至