上海交通大学与生成式人工智能研究实验室(GAIR)的研究团队在2025年5月发布了一项突破性研究,由何彦恒、金嘉和、刘鹏飞领衔完成。这项名为《高效计算机使用代理训练》的研究成果已在arXiv(arXiv:2505.13909v1)上发表,并在GitHub(https://github.com/GAIR-NLP/PC-Agent-E)开源了所有代码、数据和模型。
为什么需要电脑操作AI助手?
想象一下,你有一个数字助手,它能像人类一样操作电脑,完成从简单到复杂的各种任务——从创建文档、编辑图片,到浏览网页、处理电子邮件。这不再是科幻小说中的场景,而是人工智能研究的前沿领域。
人工智能代理能够自主操作计算机的能力被视为AI发展的一个重要里程碑。这类代理可以大幅减轻人类的工作负担,释放我们的时间和精力。然而,尽管大型科技公司如Anthropic、OpenAI等都在积极开发此类系统,当前的模型在实际应用中仍面临重大挑战:它们缺乏足够的计算机操作知识,也无法有效地进行长期规划。
研究团队指出,这些问题的核心在于高质量的计算机操作轨迹数据极其稀缺。就像教孩子使用电脑需要示范和指导一样,AI代理也需要大量的"示范"来学习如何操作计算机。但收集这样的数据需要真人操作并记录,成本高昂且耗时。
数据质量胜于数量:GAIR团队的突破性方法
上海交大和GAIR的研究团队提出了一个令人惊讶的发现:其实不需要海量数据,只要数据质量足够高,就能训练出表现优异的计算机操作AI。这就像教孩子弹钢琴,与其让他机械地练习成千上万小时的简单曲目,不如让他学习几百首精心挑选的、涵盖各种技巧的曲目,效果会更好。
研究团队开发的PC Agent-E框架就基于这一理念。这个框架从少量但高质量的人类操作示范开始,然后利用先进的AI模型来丰富和多样化这些数据,最终训练出一个能够有效操作计算机的AI代理。
从312个人类轨迹开始
整个过程始于收集312个人类计算机使用轨迹。想象一下录制视频教程的过程:两名人类注释者使用PC Tracker工具记录他们完成各种计算机任务的过程,包括任务描述、屏幕截图和键盘/鼠标操作。整个数据收集过程仅用了一天时间,平均每个轨迹只需约3分钟。
这些轨迹分布在不同的应用程序中:Chrome浏览器(70个轨迹)、Edge浏览器(53个)、VS Code编辑器(45个)、系统操作(50个)、LibreOffice(25个)、VLC媒体播放器(36个)和其他实用工具(33个)。这确保了训练数据涵盖了多种常见的计算机使用场景。
思考过程重建:让AI理解人类的决策逻辑
收集到轨迹后,研究团队面临一个问题:人类在操作电脑时,大部分思考过程都在脑中进行,没有明确记录下来。就像观看别人打游戏,你能看到他们的操作,但不知道他们为什么这样做。
为了解决这个问题,研究团队使用Claude 3.7 Sonnet模型为每个人类操作重建可能的思考过程。模型会分析任务描述、历史操作和当前屏幕状态,推断出人类在执行该操作前可能的思考逻辑。这就像是在电视解说中添加了选手的"内心独白",让AI能够理解每个操作背后的决策逻辑。
轨迹增强:多样化的解决方案
仅有人类示范的轨迹还不够丰富。想象一下,完成一项电脑任务通常有多种不同的方法。例如,要保存文件,你可以点击菜单中的"保存",使用快捷键Ctrl+S,或者右键点击并选择"保存"选项。
研究团队开发了一种名为"轨迹增强"(Trajectory Boost)的方法,利用Claude 3.7 Sonnet为每个轨迹步骤生成9个不同的、合理的替代操作。这就像是在教学视频中不仅展示一种解决方法,还添加了"你也可以这样做..."的多种备选方案,大大丰富了训练数据的多样性。
这个过程利用了人类轨迹中的"环境快照"——包括任务描述、当前屏幕状态和历史操作,让AI模型基于这些信息生成各种可能的下一步操作。最终形成了一个"轨迹树",其中人类的原始轨迹形成主干,AI生成的多样化操作形成分支。
PC Agent-E:简单而强大的架构
有了这些高质量的增强轨迹数据,研究团队开发了PC Agent-E模型。这个模型采用了一个故意简化的端到端架构:输入任务描述、屏幕截图和历史操作,输出思考过程和具体操作。
研究团队强调,他们的主要目标是验证高质量数据在代理训练中的效果,而不是通过复杂的工作流设计或精细的提示工程来优化性能。这就像是在科学实验中控制变量,以突出数据质量的重要性。
最终,通过将312个人类轨迹和AI生成的多样化操作决策结合起来,团队获得了约2.7万个训练样本,用于训练PC Agent-E模型。
令人惊讶的评估结果
研究团队开发了一个名为WindowsAgentArena-V2的改进基准测试,用于评估计算机使用代理的性能。这个测试包含141个跨越11个Windows应用程序的各种任务。
评估结果令人惊讶:仅使用312个增强轨迹训练的PC Agent-E模型在基准测试上取得了36.0%的成功率,比基础模型Qwen2.5-VL-72B的14.9%提高了141%。更令人惊讶的是,这个表现甚至超过了具有扩展思考能力的Claude 3.7 Sonnet(成功率35.4%),后者是一个强大的专有前沿模型。
此外,PC Agent-E还展示了出色的跨平台泛化能力。尽管完全在Windows系统上训练,该模型在OSWorld基准测试(专注于Linux任务)上也取得了14.9%的成功率,相对于基础模型的11.1%提高了34%。
数据质量的双重保证
研究团队认为,PC Agent-E的出色性能来源于他们特别注重数据质量的两个关键因素:
1. 真实世界任务完成:人类注释者确保每个轨迹都是真实完成任务的过程,这保证了数据的真实性和有效性。就像从专业厨师那里学习烹饪,每个步骤都是经过验证的成功做法。
2. 多样化操作决策:Claude 3.7 Sonnet生成的替代操作丰富了每个步骤的可能性,大大增加了训练数据的多样性。这就像学习同一道菜的多种做法,让AI能够更灵活地应对不同情况。
不只是操作记忆,更是长期规划能力
研究团队通过定性分析发现,PC Agent-E的主要提升来自于增强的长期规划能力。训练后的模型能够产生明显更长的思考过程,并展示出改进的推理能力,包括验证、反思和自我纠正。
这就像一个经验丰富的电脑用户,不仅知道"如何点击",还能根据当前情况调整计划,识别并纠正错误,找到替代解决方案。这种能力对于完成复杂的长期任务至关重要。
训练和测试时的操作缩放
研究团队还探索了训练数据中行动决策数量对模型性能的影响。他们发现,随着每个步骤合成行动数量的增加,模型性能显著提升。仅使用人类轨迹训练的模型只比基础模型提高了15%,而加入了AI生成的多样化操作后,性能提升达到了141%。
同样,测试时允许模型执行更多步骤也能提高成功率。这表明,随着AI模型继续与计算机交互,其解决问题的能力会随着时间推移而提高——就像人类在使用电脑时,往往需要尝试多种方法才能完成复杂任务。
解决评估中的"不可行任务黑客攻击"问题
研究团队还发现并解决了一个名为"不可行任务黑客攻击"的基准测试漏洞。在现有的计算机使用基准测试中,一些任务本质上是无法完成的(例如使用已废弃的系统功能),评估方法简单地认为,如果代理在任何时候输出"FAIL"操作,任务就被视为成功完成。
这导致了一个问题:较弱的模型可能会在这类任务上取得更高的分数,因为它们更容易放弃并输出失败操作。研究团队通过从WindowsAgentArena-V2中移除所有不可行任务来解决这个问题,确保评估的公平性。
未来发展方向
研究团队指出,尽管强化学习(RL)在长期任务中取得了令人鼓舞的进展,但其有效性与基础模型的能力密切相关。目前,即使是最先进的专有模型在计算机使用能力方面仍远远不足。
他们认为,收集计算机使用数据用于预训练和后训练仍然对实现真正智能的数字世界代理至关重要。未来的方向可能涉及RL和SFT(监督微调)的协同发展,相互补充和增强。
总结与展望
这项由上海交通大学和GAIR实验室团队完成的研究表明,通过专注于数据质量而不是数量,可以极大地提高计算机操作AI代理的训练效率。仅使用312个经过增强的人类轨迹,他们的PC Agent-E模型就实现了令人印象深刻的性能,超越了强大的专有模型。
这一发现对于AI研究和应用具有重要意义,表明我们可能不需要收集海量的人类示范数据来训练有效的AI代理。相反,通过专注于少量但高质量的数据,并利用AI来增强和多样化这些数据,我们可以更高效地开发出强大的计算机操作代理。
这项研究的代码、数据和模型已在GitHub上开源,为未来的研究提供了宝贵资源。随着这一领域的不断发展,我们可以期待看到更多能够像人类一样自然操作计算机的AI代理出现,进一步减轻人类的工作负担,提高生产力。
好文章,需要你的鼓励
北航团队推出Easy Dataset框架,通过直观的图形界面和角色驱动的生成方法,让普通用户能够轻松将各种格式文档转换为高质量的AI训练数据。该工具集成了智能文档解析、混合分块策略和个性化问答生成功能,在金融领域实验中显著提升了AI模型的专业表现,同时保持通用能力。项目已开源并获得超过9000颗GitHub星标。
卢森堡计算机事件响应中心开发的VLAI系统,基于RoBERTa模型,能够通过阅读漏洞描述自动判断危险等级。该系统在60万个真实漏洞数据上训练,准确率达82.8%,已集成到实际安全服务中。研究采用开源方式,为网络安全专家提供快速漏洞风险评估工具,有效解决了官方评分发布前的安全决策难题。
中国电信研究院等机构联合开发的xVerify系统,专门解决复杂AI推理模型的评估难题。该系统能够准确判断包含多步推理过程的AI输出,在准确率和效率方面均超越现有方法,为AI评估领域提供了重要突破。
昆仑公司Skywork AI团队开发的Skywork R1V模型,成功将文本推理能力扩展到视觉领域。该模型仅用380亿参数就实现了与大型闭源模型相媲美的多模态推理性能,在MMMU测试中达到69.0分,在MathVista获得67.5分,同时保持了优秀的文本推理能力。研究团队采用高效的多模态迁移、混合优化框架和自适应推理链蒸馏三项核心技术,成功实现了视觉理解与逻辑推理的完美结合,并将所有代码和权重完全开源。