微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

仅需312个电脑操作轨迹，GAIR团队打造超高效电脑操作AI助手：数据质量胜过数据量

人工智能计算机代理数据效率

仅需312个电脑操作轨迹，GAIR团队打造超高效电脑操作AI助手：数据质量胜过数据量

作者：科技行者

2025-05-27 15:30

分享至：

上海交通大学与GAIR实验室研究团队开发了PC Agent-E，一种高效的计算机操作AI代理训练框架。通过仅使用312个人类操作轨迹并利用Claude 3.7 Sonnet进行数据增强，该模型在WindowsAgentArena-V2基准测试上取得了36.0%的成功率，超越了同样强大的Claude 3.7 Sonnet（35.4%）。研究证明高质量数据比大量数据更重要，PC Agent-E通过改进长期规划能力实现了突破性进展，同时展示了跨平台泛化能力。所有代码、数据和模型已开源，为计算机操作AI代理研究提供了宝贵资源。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-27 15:30 • 科技行者

上海交通大学与生成式人工智能研究实验室(GAIR)的研究团队在2025年5月发布了一项突破性研究，由何彦恒、金嘉和、刘鹏飞领衔完成。这项名为《高效计算机使用代理训练》的研究成果已在arXiv（arXiv:2505.13909v1）上发表，并在GitHub（https://github.com/GAIR-NLP/PC-Agent-E）开源了所有代码、数据和模型。

为什么需要电脑操作AI助手？

想象一下，你有一个数字助手，它能像人类一样操作电脑，完成从简单到复杂的各种任务——从创建文档、编辑图片，到浏览网页、处理电子邮件。这不再是科幻小说中的场景，而是人工智能研究的前沿领域。

人工智能代理能够自主操作计算机的能力被视为AI发展的一个重要里程碑。这类代理可以大幅减轻人类的工作负担，释放我们的时间和精力。然而，尽管大型科技公司如Anthropic、OpenAI等都在积极开发此类系统，当前的模型在实际应用中仍面临重大挑战：它们缺乏足够的计算机操作知识，也无法有效地进行长期规划。

研究团队指出，这些问题的核心在于高质量的计算机操作轨迹数据极其稀缺。就像教孩子使用电脑需要示范和指导一样，AI代理也需要大量的"示范"来学习如何操作计算机。但收集这样的数据需要真人操作并记录，成本高昂且耗时。

数据质量胜于数量：GAIR团队的突破性方法

上海交大和GAIR的研究团队提出了一个令人惊讶的发现：其实不需要海量数据，只要数据质量足够高，就能训练出表现优异的计算机操作AI。这就像教孩子弹钢琴，与其让他机械地练习成千上万小时的简单曲目，不如让他学习几百首精心挑选的、涵盖各种技巧的曲目，效果会更好。

研究团队开发的PC Agent-E框架就基于这一理念。这个框架从少量但高质量的人类操作示范开始，然后利用先进的AI模型来丰富和多样化这些数据，最终训练出一个能够有效操作计算机的AI代理。

从312个人类轨迹开始

整个过程始于收集312个人类计算机使用轨迹。想象一下录制视频教程的过程：两名人类注释者使用PC Tracker工具记录他们完成各种计算机任务的过程，包括任务描述、屏幕截图和键盘/鼠标操作。整个数据收集过程仅用了一天时间，平均每个轨迹只需约3分钟。

这些轨迹分布在不同的应用程序中：Chrome浏览器（70个轨迹）、Edge浏览器（53个）、VS Code编辑器（45个）、系统操作（50个）、LibreOffice（25个）、VLC媒体播放器（36个）和其他实用工具（33个）。这确保了训练数据涵盖了多种常见的计算机使用场景。

思考过程重建：让AI理解人类的决策逻辑

收集到轨迹后，研究团队面临一个问题：人类在操作电脑时，大部分思考过程都在脑中进行，没有明确记录下来。就像观看别人打游戏，你能看到他们的操作，但不知道他们为什么这样做。

为了解决这个问题，研究团队使用Claude 3.7 Sonnet模型为每个人类操作重建可能的思考过程。模型会分析任务描述、历史操作和当前屏幕状态，推断出人类在执行该操作前可能的思考逻辑。这就像是在电视解说中添加了选手的"内心独白"，让AI能够理解每个操作背后的决策逻辑。

轨迹增强：多样化的解决方案

仅有人类示范的轨迹还不够丰富。想象一下，完成一项电脑任务通常有多种不同的方法。例如，要保存文件，你可以点击菜单中的"保存"，使用快捷键Ctrl+S，或者右键点击并选择"保存"选项。

研究团队开发了一种名为"轨迹增强"（Trajectory Boost）的方法，利用Claude 3.7 Sonnet为每个轨迹步骤生成9个不同的、合理的替代操作。这就像是在教学视频中不仅展示一种解决方法，还添加了"你也可以这样做..."的多种备选方案，大大丰富了训练数据的多样性。

这个过程利用了人类轨迹中的"环境快照"——包括任务描述、当前屏幕状态和历史操作，让AI模型基于这些信息生成各种可能的下一步操作。最终形成了一个"轨迹树"，其中人类的原始轨迹形成主干，AI生成的多样化操作形成分支。

PC Agent-E：简单而强大的架构

有了这些高质量的增强轨迹数据，研究团队开发了PC Agent-E模型。这个模型采用了一个故意简化的端到端架构：输入任务描述、屏幕截图和历史操作，输出思考过程和具体操作。

研究团队强调，他们的主要目标是验证高质量数据在代理训练中的效果，而不是通过复杂的工作流设计或精细的提示工程来优化性能。这就像是在科学实验中控制变量，以突出数据质量的重要性。

最终，通过将312个人类轨迹和AI生成的多样化操作决策结合起来，团队获得了约2.7万个训练样本，用于训练PC Agent-E模型。

令人惊讶的评估结果

研究团队开发了一个名为WindowsAgentArena-V2的改进基准测试，用于评估计算机使用代理的性能。这个测试包含141个跨越11个Windows应用程序的各种任务。

评估结果令人惊讶：仅使用312个增强轨迹训练的PC Agent-E模型在基准测试上取得了36.0%的成功率，比基础模型Qwen2.5-VL-72B的14.9%提高了141%。更令人惊讶的是，这个表现甚至超过了具有扩展思考能力的Claude 3.7 Sonnet（成功率35.4%），后者是一个强大的专有前沿模型。

此外，PC Agent-E还展示了出色的跨平台泛化能力。尽管完全在Windows系统上训练，该模型在OSWorld基准测试（专注于Linux任务）上也取得了14.9%的成功率，相对于基础模型的11.1%提高了34%。

数据质量的双重保证

研究团队认为，PC Agent-E的出色性能来源于他们特别注重数据质量的两个关键因素：

1. 真实世界任务完成：人类注释者确保每个轨迹都是真实完成任务的过程，这保证了数据的真实性和有效性。就像从专业厨师那里学习烹饪，每个步骤都是经过验证的成功做法。

2. 多样化操作决策：Claude 3.7 Sonnet生成的替代操作丰富了每个步骤的可能性，大大增加了训练数据的多样性。这就像学习同一道菜的多种做法，让AI能够更灵活地应对不同情况。

不只是操作记忆，更是长期规划能力

研究团队通过定性分析发现，PC Agent-E的主要提升来自于增强的长期规划能力。训练后的模型能够产生明显更长的思考过程，并展示出改进的推理能力，包括验证、反思和自我纠正。

这就像一个经验丰富的电脑用户，不仅知道"如何点击"，还能根据当前情况调整计划，识别并纠正错误，找到替代解决方案。这种能力对于完成复杂的长期任务至关重要。

训练和测试时的操作缩放

研究团队还探索了训练数据中行动决策数量对模型性能的影响。他们发现，随着每个步骤合成行动数量的增加，模型性能显著提升。仅使用人类轨迹训练的模型只比基础模型提高了15%，而加入了AI生成的多样化操作后，性能提升达到了141%。

同样，测试时允许模型执行更多步骤也能提高成功率。这表明，随着AI模型继续与计算机交互，其解决问题的能力会随着时间推移而提高——就像人类在使用电脑时，往往需要尝试多种方法才能完成复杂任务。

解决评估中的"不可行任务黑客攻击"问题