微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 上海AI实验室让AI学会玩转全新软件,不再需要人类手把手教学

上海AI实验室让AI学会玩转全新软件,不再需要人类手把手教学

2025-08-11 14:29
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-08-11 14:29 科技行者

这项由上海交通大学的孙泽艺、上海人工智能实验室的王嘉琦等研究团队完成的突破性研究发表于2025年8月,论文题为《SEAgent: Self-Evolving Computer Use Agent with Autonomous Learning from Experience》。有兴趣深入了解的读者可以通过项目地址https://github.com/SunzeY/SEAgent获取更多详细信息。

你是否曾经想过,如果有一天AI助手能够像人类一样,面对一个全新的软件就能自己摸索着学会使用,那该有多方便?当我们拿到一个从未接触过的软件时,通常会先点点这里、试试那里,通过不断的尝试和犯错来逐渐掌握它的功能。现在,研究团队开发了一个名为SEAgent的AI系统,它就像一个聪明的学生,能够在没有老师指导的情况下,通过自己的探索和实践来掌握新软件的使用方法。

这项研究的核心创新在于让AI能够完全自主地学习使用它从未见过的软件。过去,训练一个AI助手使用软件就像教小孩子学钢琴一样,需要人类老师一步步演示每个动作,记录下每次按键和鼠标点击,然后让AI反复模仿这些动作。这种方法不仅需要大量的人工标注工作,而且当遇到新软件时,AI就像遇到新曲子的学生一样完全不知所措。

研究团队面临的挑战就像是要培养一个能够自学成才的学生。当这个学生面对一门全新的课程时,他需要具备三种核心能力:首先是能够理解当前的学习状态和进展,就像学生需要知道自己掌握了什么、还缺什么;其次是能够为自己设计合理的学习计划,从简单到复杂循序渐进;最后是能够从自己的成功和失败中汲取经验,不断改进学习方法。

为了解决这些挑战,研究团队设计了一个完整的自主学习系统,这个系统就像一个智能的私人教练。这个教练包含三个关键组件:首先是一个"状态评估师",它就像一面镜子,能够准确地告诉AI当前的操作是否正确,哪一步出了问题;其次是一个"课程设计师",它就像一个经验丰富的老师,能够根据AI的当前能力水平设计合适难度的练习题;最后是AI学习者本身,它通过不断的实践和反思来提升自己的能力。

研究团队特别设计了一个"世界状态模型"来充当AI的眼睛和大脑。这个模型就像一个细心的观察者,它不仅能够看懂屏幕上发生的一切变化,还能判断每一个操作步骤是否朝着正确的方向前进。当AI点击了错误的按钮或者在某个地方卡住时,这个模型能够及时发现并指出问题所在,就像一个耐心的导师在学生犯错时给出及时的纠正。

更有趣的是,这个系统还具备了一种"课程生成"能力。就像一个好老师会根据学生的学习进度调整教学内容一样,系统中的课程生成器能够观察AI在使用软件时的表现,然后自动设计出更有针对性的练习任务。比如,当AI成功学会了如何在图像编辑软件中画一个矩形后,课程生成器就会提出更有挑战性的任务,比如画一个带有特定颜色和透明度的矩形。

在学习方法上,研究团队采用了一种类似于"奖惩结合"的训练策略。当AI做对了某个操作时,系统会给予积极的强化,鼓励AI继续这种正确的行为模式;而当AI犯错时,系统不是简单地惩罚,而是通过"对抗性模仿"的方式,让AI学会避免这些错误的操作模式。这就像是在训练一个运动员,不仅要表扬他们的正确动作,还要帮助他们改正错误的动作习惯。

研究团队还发现了一个有趣的现象:直接训练一个能够处理多种不同软件的通用AI助手,效果往往不如先分别训练多个专门的AI助手,然后再将这些专家的知识整合起来。这就像是培养一个全能型人才,往往不如先让他在不同领域都成为专家,然后再融会贯通。因此,他们设计了一个"专家到通才"的训练策略,先让AI在每个软件上都成为专家,然后将这些专业知识整合成一个更强大的通用AI助手。

为了验证这套方法的有效性,研究团队在五种不同的专业软件上进行了测试,包括代码编辑器VSCode、图像处理软件GIMP、演示软件LibreOffice Impress、媒体播放器VLC和文档处理软件Writer。这些软件就像是五个不同的考场,每个都有自己独特的操作逻辑和界面设计。

测试结果令人印象深刻。在完全没有人工标注数据的情况下,SEAgent的成功率从初始的11.3%提升到了34.5%,这相当于在短时间内将一个初学者培养成了一个相当熟练的用户。更重要的是,通过"专家到通才"的训练策略得到的通用AI助手,其性能甚至超过了各个专门领域的专家AI的组合表现,这证明了知识整合的威力。

在训练过程中,AI展现出了类似人类学习的渐进式进步模式。在第一阶段,AI学会了最基本的操作,比如点击菜单、输入文字等简单任务;到了第二阶段,AI开始尝试更复杂的操作组合,比如在演示软件中插入形状并设置颜色;在第三阶段,AI甚至能够处理涉及多个步骤的复杂任务,比如创建带有特殊效果的图形元素。这种学习轨迹与人类掌握新软件的过程remarkably相似。

研究团队在设计评估系统时特别注重准确性和实时性。他们开发的"世界状态模型"不仅能够准确判断任务的完成情况,还能提供逐步的反馈信息。与传统的只看最终结果的评估方法不同,这个模型能够分析整个操作过程,识别出哪些步骤是正确的,哪些是多余的,哪些是错误的。这种细致的分析能力使得AI能够从每一次尝试中学到更多有用的信息。

为了确保研究的客观性,团队还建立了一个专门的基准测试平台。他们在AgentRewardBench和OSWorld等标准测试集上评估了系统的性能,结果显示SEAgent在多项指标上都达到了业界领先水平。特别值得一提的是,他们开发的世界状态模型在判断准确性方面,已经接近了商业化的GPT-4o模型的水平,但却是完全开源的解决方案。

这项研究的意义远超技术层面的突破。在实际应用中,这意味着未来的AI助手将不再受限于预先训练的软件类型,而是能够快速适应各种新出现的应用程序。这就像是拥有了一个万能的数字助手,无论你使用什么新软件,它都能很快上手帮你完成各种任务。

研究团队也坦诚地指出了当前方法的局限性。首先,系统目前仍然依赖于AI评判员来提供可靠的反馈信号,而不是直接从环境中获取奖励信号。这就像是学习过程中仍然需要一个观察者来判断对错,而不是完全靠自己感受。其次,虽然测试的软件相对复杂,但任务本身仍然相对简单,通常人类专家只需要不到20步就能完成,如何让AI掌握需要数小时才能完成的复杂工作流程,仍然是一个有待解决的挑战。

从技术发展的角度来看,这项研究为AI领域带来了一种全新的思路。传统的AI训练就像是填鸭式教育,需要大量的标准答案和示例;而SEAgent代表的这种自主学习方法更像是启发式教育,通过创造合适的学习环境和反馈机制,让AI自己探索和发现知识。这种方法不仅减少了对人工标注数据的依赖,还能让AI具备更强的适应性和创新能力。

研究结果还揭示了一个重要的学习策略:专业化与通用化的有机结合。这个发现对于AI教育具有重要启示意义。就像人类学习一样,先在各个专业领域深入钻研,然后再进行跨领域的知识整合,往往能够产生更好的效果。这种策略不仅适用于软件操作的学习,也可能对其他类型的AI学习任务具有指导价值。

这项研究的社会影响也值得关注。随着软件和应用程序的快速迭代更新,传统的人工标注方法已经难以跟上技术发展的步伐。SEAgent提供的自主学习能力,为解决这个问题开辟了新的道路。未来,当新软件发布时,AI助手可能不再需要等待人类专家的训练,而是能够自己快速学习并掌握新功能。

对于普通用户来说,这意味着AI助手将变得更加智能和实用。你不再需要担心AI助手是否支持某个特定的软件,因为它具备了快速学习新软件的能力。这就像是拥有了一个永远愿意学习新技能的助手,无论你的工作需求如何变化,它都能快速适应并提供帮助。

研究团队选择将SEAgent开源,这个决定体现了学术界推动技术普及和创新的传统。开源意味着全世界的研究者和开发者都可以在这个基础上继续改进和扩展,加速相关技术的发展和应用。这种开放的态度也有助于建立更加透明和可信的AI系统,让用户能够更好地理解和控制AI助手的行为。

从长远来看,这项研究可能会推动整个AI行业向更加自主和智能的方向发展。当AI系统具备了自主学习新技能的能力后,它们将不再是被动执行预设程序的工具,而是能够主动适应环境变化的智能伙伴。这种转变将为人机协作开启全新的可能性,让AI真正成为人类创造力和生产力的放大器。

说到底,SEAgent代表的不仅仅是一个技术突破,更是AI发展理念的重要转变。从依赖大量人工标注的监督学习,到具备自主探索能力的体验式学习,这个转变让AI更接近人类的学习方式。虽然目前还有许多挑战需要克服,但这项研究无疑为构建真正智能的AI助手指明了方向。对于每一个期待更智能、更有用的AI助手的人来说,SEAgent的出现都值得关注和期待。

Q&A

Q1:SEAgent是什么?它和普通的AI助手有什么区别?

A:SEAgent是上海人工智能实验室开发的自主学习型AI助手,它最大的特点是能够在没有人类教学的情况下,通过自己的探索和试错来学会使用全新的软件。普通AI助手需要人类提前标注大量示例数据才能工作,而SEAgent就像一个聪明的学生,能够自己摸索着掌握新软件的使用方法。

Q2:SEAgent的自主学习效果如何?能达到什么水平?

A:在测试中,SEAgent在五种专业软件上的成功率从初始的11.3%提升到了34.5%,相当于将一个初学者快速培养成熟练用户。更重要的是,通过先分别训练各软件专家再整合的策略,最终的通用AI助手性能甚至超过了各个专门领域专家的组合表现。

Q3:SEAgent什么时候能普及应用?普通用户能用上吗?

A:目前SEAgent还处于研究阶段,研究团队已经将其开源供其他研究者和开发者改进。虽然还面临一些挑战,比如处理更复杂的长时间工作流程,但这项技术为未来AI助手的发展指明了方向。预计随着技术成熟,我们将看到更多具备自主学习能力的AI助手产品出现。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-