微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 仅需312个电脑操作轨迹,GAIR团队打造超高效电脑操作AI助手:数据质量胜过数据量

仅需312个电脑操作轨迹,GAIR团队打造超高效电脑操作AI助手:数据质量胜过数据量

2025-05-27 15:30
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-27 15:30 科技行者

上海交通大学与生成式人工智能研究实验室(GAIR)的研究团队在2025年5月发布了一项突破性研究,由何彦恒、金嘉和、刘鹏飞领衔完成。这项名为《高效计算机使用代理训练》的研究成果已在arXiv(arXiv:2505.13909v1)上发表,并在GitHub(https://github.com/GAIR-NLP/PC-Agent-E)开源了所有代码、数据和模型。

为什么需要电脑操作AI助手?

想象一下,你有一个数字助手,它能像人类一样操作电脑,完成从简单到复杂的各种任务——从创建文档、编辑图片,到浏览网页、处理电子邮件。这不再是科幻小说中的场景,而是人工智能研究的前沿领域。

人工智能代理能够自主操作计算机的能力被视为AI发展的一个重要里程碑。这类代理可以大幅减轻人类的工作负担,释放我们的时间和精力。然而,尽管大型科技公司如Anthropic、OpenAI等都在积极开发此类系统,当前的模型在实际应用中仍面临重大挑战:它们缺乏足够的计算机操作知识,也无法有效地进行长期规划。

研究团队指出,这些问题的核心在于高质量的计算机操作轨迹数据极其稀缺。就像教孩子使用电脑需要示范和指导一样,AI代理也需要大量的"示范"来学习如何操作计算机。但收集这样的数据需要真人操作并记录,成本高昂且耗时。

数据质量胜于数量:GAIR团队的突破性方法

上海交大和GAIR的研究团队提出了一个令人惊讶的发现:其实不需要海量数据,只要数据质量足够高,就能训练出表现优异的计算机操作AI。这就像教孩子弹钢琴,与其让他机械地练习成千上万小时的简单曲目,不如让他学习几百首精心挑选的、涵盖各种技巧的曲目,效果会更好。

研究团队开发的PC Agent-E框架就基于这一理念。这个框架从少量但高质量的人类操作示范开始,然后利用先进的AI模型来丰富和多样化这些数据,最终训练出一个能够有效操作计算机的AI代理。

从312个人类轨迹开始

整个过程始于收集312个人类计算机使用轨迹。想象一下录制视频教程的过程:两名人类注释者使用PC Tracker工具记录他们完成各种计算机任务的过程,包括任务描述、屏幕截图和键盘/鼠标操作。整个数据收集过程仅用了一天时间,平均每个轨迹只需约3分钟。

这些轨迹分布在不同的应用程序中:Chrome浏览器(70个轨迹)、Edge浏览器(53个)、VS Code编辑器(45个)、系统操作(50个)、LibreOffice(25个)、VLC媒体播放器(36个)和其他实用工具(33个)。这确保了训练数据涵盖了多种常见的计算机使用场景。

思考过程重建:让AI理解人类的决策逻辑

收集到轨迹后,研究团队面临一个问题:人类在操作电脑时,大部分思考过程都在脑中进行,没有明确记录下来。就像观看别人打游戏,你能看到他们的操作,但不知道他们为什么这样做。

为了解决这个问题,研究团队使用Claude 3.7 Sonnet模型为每个人类操作重建可能的思考过程。模型会分析任务描述、历史操作和当前屏幕状态,推断出人类在执行该操作前可能的思考逻辑。这就像是在电视解说中添加了选手的"内心独白",让AI能够理解每个操作背后的决策逻辑。

轨迹增强:多样化的解决方案

仅有人类示范的轨迹还不够丰富。想象一下,完成一项电脑任务通常有多种不同的方法。例如,要保存文件,你可以点击菜单中的"保存",使用快捷键Ctrl+S,或者右键点击并选择"保存"选项。

研究团队开发了一种名为"轨迹增强"(Trajectory Boost)的方法,利用Claude 3.7 Sonnet为每个轨迹步骤生成9个不同的、合理的替代操作。这就像是在教学视频中不仅展示一种解决方法,还添加了"你也可以这样做..."的多种备选方案,大大丰富了训练数据的多样性。

这个过程利用了人类轨迹中的"环境快照"——包括任务描述、当前屏幕状态和历史操作,让AI模型基于这些信息生成各种可能的下一步操作。最终形成了一个"轨迹树",其中人类的原始轨迹形成主干,AI生成的多样化操作形成分支。

PC Agent-E:简单而强大的架构

有了这些高质量的增强轨迹数据,研究团队开发了PC Agent-E模型。这个模型采用了一个故意简化的端到端架构:输入任务描述、屏幕截图和历史操作,输出思考过程和具体操作。

研究团队强调,他们的主要目标是验证高质量数据在代理训练中的效果,而不是通过复杂的工作流设计或精细的提示工程来优化性能。这就像是在科学实验中控制变量,以突出数据质量的重要性。

最终,通过将312个人类轨迹和AI生成的多样化操作决策结合起来,团队获得了约2.7万个训练样本,用于训练PC Agent-E模型。

令人惊讶的评估结果

研究团队开发了一个名为WindowsAgentArena-V2的改进基准测试,用于评估计算机使用代理的性能。这个测试包含141个跨越11个Windows应用程序的各种任务。

评估结果令人惊讶:仅使用312个增强轨迹训练的PC Agent-E模型在基准测试上取得了36.0%的成功率,比基础模型Qwen2.5-VL-72B的14.9%提高了141%。更令人惊讶的是,这个表现甚至超过了具有扩展思考能力的Claude 3.7 Sonnet(成功率35.4%),后者是一个强大的专有前沿模型。

此外,PC Agent-E还展示了出色的跨平台泛化能力。尽管完全在Windows系统上训练,该模型在OSWorld基准测试(专注于Linux任务)上也取得了14.9%的成功率,相对于基础模型的11.1%提高了34%。

数据质量的双重保证

研究团队认为,PC Agent-E的出色性能来源于他们特别注重数据质量的两个关键因素:

1. 真实世界任务完成:人类注释者确保每个轨迹都是真实完成任务的过程,这保证了数据的真实性和有效性。就像从专业厨师那里学习烹饪,每个步骤都是经过验证的成功做法。

2. 多样化操作决策:Claude 3.7 Sonnet生成的替代操作丰富了每个步骤的可能性,大大增加了训练数据的多样性。这就像学习同一道菜的多种做法,让AI能够更灵活地应对不同情况。

不只是操作记忆,更是长期规划能力

研究团队通过定性分析发现,PC Agent-E的主要提升来自于增强的长期规划能力。训练后的模型能够产生明显更长的思考过程,并展示出改进的推理能力,包括验证、反思和自我纠正。

这就像一个经验丰富的电脑用户,不仅知道"如何点击",还能根据当前情况调整计划,识别并纠正错误,找到替代解决方案。这种能力对于完成复杂的长期任务至关重要。

训练和测试时的操作缩放

研究团队还探索了训练数据中行动决策数量对模型性能的影响。他们发现,随着每个步骤合成行动数量的增加,模型性能显著提升。仅使用人类轨迹训练的模型只比基础模型提高了15%,而加入了AI生成的多样化操作后,性能提升达到了141%。

同样,测试时允许模型执行更多步骤也能提高成功率。这表明,随着AI模型继续与计算机交互,其解决问题的能力会随着时间推移而提高——就像人类在使用电脑时,往往需要尝试多种方法才能完成复杂任务。

解决评估中的"不可行任务黑客攻击"问题

研究团队还发现并解决了一个名为"不可行任务黑客攻击"的基准测试漏洞。在现有的计算机使用基准测试中,一些任务本质上是无法完成的(例如使用已废弃的系统功能),评估方法简单地认为,如果代理在任何时候输出"FAIL"操作,任务就被视为成功完成。

这导致了一个问题:较弱的模型可能会在这类任务上取得更高的分数,因为它们更容易放弃并输出失败操作。研究团队通过从WindowsAgentArena-V2中移除所有不可行任务来解决这个问题,确保评估的公平性。

未来发展方向

研究团队指出,尽管强化学习(RL)在长期任务中取得了令人鼓舞的进展,但其有效性与基础模型的能力密切相关。目前,即使是最先进的专有模型在计算机使用能力方面仍远远不足。

他们认为,收集计算机使用数据用于预训练和后训练仍然对实现真正智能的数字世界代理至关重要。未来的方向可能涉及RL和SFT(监督微调)的协同发展,相互补充和增强。

总结与展望

这项由上海交通大学和GAIR实验室团队完成的研究表明,通过专注于数据质量而不是数量,可以极大地提高计算机操作AI代理的训练效率。仅使用312个经过增强的人类轨迹,他们的PC Agent-E模型就实现了令人印象深刻的性能,超越了强大的专有模型。

这一发现对于AI研究和应用具有重要意义,表明我们可能不需要收集海量的人类示范数据来训练有效的AI代理。相反,通过专注于少量但高质量的数据,并利用AI来增强和多样化这些数据,我们可以更高效地开发出强大的计算机操作代理。

这项研究的代码、数据和模型已在GitHub上开源,为未来的研究提供了宝贵资源。随着这一领域的不断发展,我们可以期待看到更多能够像人类一样自然操作计算机的AI代理出现,进一步减轻人类的工作负担,提高生产力。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。

  • 微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。

  • 用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。

  • 播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-