这项由浙江大学计算机科学与技术学院胡学宇、熊韬等研究人员领导的大规模调研工作发表于2025年ACL会议,该论文全面梳理了基于多模态大语言模型的操作系统智能体(OS Agents)这一前沿研究领域。感兴趣的读者可以通过论文官方网站https://os-agent-survey.github.io/或ACL会议论文集https://aclanthology.org/2025.acl-long.369/获取完整研究内容。
还记得电影《钢铁侠》中那个无所不能的人工智能助手贾维斯吗?它能够帮助托尼·斯塔克控制各种系统,自动执行复杂任务,简直就像是一个完美的数字管家。现在,这个科幻梦想正在逐步成为现实。浙江大学的研究团队通过这项大规模调研,系统性地分析了当前最前沿的AI助手技术——操作系统智能体,这些智能体能够像人类一样使用电脑和手机,自动完成各种日常任务。
所谓操作系统智能体,简单来说就是能够在我们的电脑、手机等设备上独立工作的AI助手。它们不再局限于简单的语音对话,而是能够真正"看懂"屏幕上的内容,"理解"用户的需求,然后像人类一样点击按钮、填写表格、浏览网页,完成从网购到邮件处理的各种复杂任务。这种技术的革命性在于,它让AI从单纯的对话伙伴变成了能够实际操作数字设备的智能助手。
这项调研的价值在于,它首次全面梳理了这个快速发展领域的完整图景。研究团队深入分析了操作系统智能体的核心技术、构建方法、评估体系,以及面临的挑战和未来发展方向。对于普通人来说,这意味着我们很快就能拥有真正智能的数字助手,它们能够理解我们的需求,自动完成繁琐的电脑操作,从而大大提高工作和生活效率。
一、操作系统智能体的基本构成:三大支柱撑起智能操作
要理解操作系统智能体如何工作,我们可以把它比作一个刚刚学会使用电脑的聪明孩子。这个"孩子"需要三个基本能力才能熟练操作设备:首先是能够"看懂"屏幕上显示的内容,其次是能够通过鼠标键盘等方式与设备交互,最后是需要在不同的操作环境中灵活应对。
环境就像是这个AI助手工作的"舞台"。正如人类可以在不同的办公室、咖啡厅或家中工作一样,操作系统智能体也需要适应各种不同的数字环境。这些环境主要包括桌面电脑系统、手机移动设备,以及各种网页应用。每种环境都有自己独特的"规则"和操作方式。桌面环境通常提供更大的操作空间和更复杂的功能,就像一个设备齐全的工作室;移动设备则更注重触摸操作和简洁界面,就像一个便携的工具包;而网页环境则充满了动态变化的内容和交互元素,就像一个不断更新的信息广场。
观察空间相当于AI助手的"眼睛"和"大脑"的感知部分。就像人类通过视觉获取信息一样,操作系统智能体需要能够"看懂"当前屏幕上显示的所有内容。这包括捕获屏幕截图、识别各种界面元素、理解文本内容,甚至解析网页的HTML代码结构。这个过程就像一个经验丰富的用户快速扫视屏幕,瞬间理解当前页面的布局、可点击的按钮位置、输入框的作用等等。不同的是,AI助手需要将这些视觉信息转化为可以处理的数据格式,然后做出相应的判断和决策。
动作空间则是AI助手与设备交互的"手脚"。正如人类通过鼠标点击、键盘输入、触摸滑动等方式操作设备,操作系统智能体也需要掌握各种操作技巧。基础的输入操作包括鼠标的点击、长按、拖拽动作,以及键盘的文字输入和快捷键操作。导航操作帮助助手在不同页面和应用之间移动,比如滚动页面查看更多内容、在浏览器标签页间切换、或者回到上一级页面。更高级的扩展操作则包括调用系统功能、使用外部工具,甚至执行代码脚本来完成复杂任务。
二、三大核心能力:理解、规划与精准执行
要成为一个真正有用的智能助手,操作系统智能体必须具备三项核心能力,就像一个优秀的秘书需要能够理解老板的需求、制定工作计划,并准确执行任务一样。
理解能力是智能体的"智慧之源"。在复杂的操作系统环境中,智能体需要处理各种形式的信息,从简洁的HTML代码到复杂的图形用户界面。这就像要求一个人同时阅读文字、观察图片、理解符号,并从中提取有用信息。特别是在现代高分辨率屏幕上,界面元素密集排列,小图标、细小文字和紧密布局给理解带来了巨大挑战。智能体必须能够像经验丰富的用户一样,快速识别哪些是重要的操作按钮,哪些是装饰性元素,哪些信息与当前任务相关。这种理解不仅是静态的,还需要具备动态适应性,因为网页内容会实时更新,应用界面会根据用户操作发生变化。
规划能力体现了智能体的"战略思维"。当用户提出一个需求时,比如"帮我预订明天的餐厅",智能体需要将这个看似简单的请求分解成一系列具体的操作步骤:打开餐厅预订网站、输入时间和人数、浏览可用选项、比较价格和评价、选择合适的餐厅、填写联系信息、确认预订。更重要的是,智能体还需要具备应变能力。当发现某个餐厅已满座时,它需要调整计划,寻找替代方案;当网页加载缓慢时,它需要耐心等待或尝试其他路径。这种规划能力分为全局规划和迭代规划两种模式。全局规划就像制定详细的旅行攻略,事先安排好每一步;而迭代规划则更像边走边看,根据实际情况不断调整路线。
行动接地能力是将想法转化为实际操作的关键桥梁。这个过程就像一个人拿到了详细的操作说明书,但仍需要准确找到每个按钮的位置并正确操作。智能体需要将抽象的指令(如"点击提交按钮")转换为精确的屏幕坐标和操作序列。在复杂的界面中,可能存在多个相似的按钮或元素,智能体必须具备精确的识别和定位能力。这就像在一个繁忙的控制室中,操作员需要准确找到并按下正确的按钮,任何错误都可能导致整个任务失败。
三、构建智能体的两大路径:专用模型与通用框架
创建操作系统智能体就像建造一栋智能建筑,可以选择两种不同的建造策略:要么从地基开始设计专门的结构,要么在现有建筑基础上进行智能化改造。研究团队发现,当前的技术发展正沿着这两条路线同步推进。
专用基础模型的开发路径就像为特定任务订制专门的工具。这类模型从设计之初就专门针对操作系统环境进行优化,就像专门为外科手术设计的精密器械一样。在模型架构方面,研究人员采用了多种创新设计。有些团队直接使用现有的大语言模型作为基础,这些模型已经具备了强大的文本理解和生成能力,只需要添加处理HTML代码和用户界面描述的功能。另一些研究则选择现有的多模态大语言模型,这类模型本身就能同时处理文字和图像信息,更适合理解复杂的图形用户界面。还有一些创新性工作通过将语言模型与专门的视觉编码器结合,创造出能够更好理解屏幕内容的新型架构。
为了让这些模型真正适应操作系统环境,研究人员在训练过程中采用了多阶段的策略。预训练阶段就像让学生进行基础知识学习,模型通过处理大量公开数据和合成数据来建立对用户界面的基本理解。这些训练数据包括从网络爬取的HTML文档、通过算法生成的屏幕截图,以及模拟的人机交互场景。有趣的是,一些研究团队甚至开发了能够自动与应用程序交互的系统,通过不断尝试不同操作来收集训练数据,就像让AI在虚拟环境中"练习"操作技能。
监督微调阶段则更加注重实际应用能力的培养。研究人员收集了大量真实的操作演示数据,包括用户执行各种任务时的完整操作序列。这个过程就像师傅手把手教导徒弟,让模型学会如何将复杂任务分解成具体步骤,以及如何准确地定位和操作界面元素。训练数据的构建需要极其精细的工作,研究人员需要为每个操作步骤标注准确的目标元素和操作类型,确保模型能够学到正确的操作模式。
强化学习阶段是让模型在实际操作中不断改进的关键。通过设计奖励机制,系统能够评估每个操作的效果,并根据任务完成情况给予正面或负面反馈。这个过程就像游戏中的练级系统,模型通过不断尝试和调整来提高操作的准确性和效率。一些先进的研究工作还引入了自我改进机制,让模型能够从错误中学习,逐步建立起更可靠的操作策略。
通用智能体框架则采用了另一种策略,就像在现有的房屋基础上安装智能家居系统。这种方法不需要从头训练专门的模型,而是通过巧妙的框架设计让通用的大语言模型具备操作系统控制能力。这种方法的优势在于可以快速利用最新的语言模型进展,同时降低了技术开发的门槛。
感知模块是框架的"眼睛",负责收集和理解环境信息。早期的研究主要依靠文本描述,将复杂的用户界面转换为结构化的文本格式,比如HTML或者无障碍访问树。这种方法就像为盲人描述房间布局,虽然能够传达基本信息,但往往会遗漏重要的视觉细节。随着多模态技术的发展,现代框架开始直接处理屏幕截图,这让智能体能够像人类一样"看到"界面的真实外观。为了帮助模型更好地理解界面元素,研究人员开发了各种视觉标注技术,比如在重要按钮周围添加标记,或者使用颜色高亮来指示可操作区域。
规划模块承担着"大脑"的作用,负责将用户需求转化为具体的行动计划。这个模块面临的挑战在于如何在动态变化的环境中制定可行的策略。全局规划方法会事先制定详细的操作序列,就像GPS导航提供的完整路线图。这种方法的优势是逻辑清晰,易于跟踪进度,但缺点是难以应对意外情况。迭代规划方法则更加灵活,它会根据每一步的执行结果来调整下一步的行动,就像一个经验丰富的司机会根据路况实时调整行驶路线。
记忆模块就像智能体的"笔记本",存储着历史操作经验和学习到的知识。这个模块包含多个层次的记忆系统。短期记忆保存当前任务的操作历史和屏幕截图,帮助智能体维持对当前情况的准确理解。长期记忆则存储着用户偏好、常用应用的操作模式,以及历史任务的成功经验。一些先进的系统还具备经验检索功能,能够从历史记录中找到相似的情况,并应用之前学到的成功策略。
动作模块是框架的"手脚",负责将决策转化为实际的系统操作。这个模块需要处理各种不同类型的操作指令,从简单的鼠标点击到复杂的多步骤工作流程。现代框架不仅支持基础的界面操作,还能够调用系统功能、执行代码脚本,甚至与外部服务进行交互。这种扩展能力让智能体能够完成更加复杂和多样化的任务。
四、评估体系:如何衡量AI助手的能力
评估操作系统智能体的能力就像为一名求职者设计面试流程,需要从多个维度全面考察其实际工作能力。研究人员建立了一套完整的评估体系,既包括客观的性能指标,也结合了主观的用户体验评价。
评估原则的设计充分考虑了操作系统智能体的实际应用场景。客观评估就像标准化考试,通过统一的评分标准来衡量智能体的表现。这类评估主要关注操作的准确性、任务完成率、执行效率等可量化指标。研究人员会设计一系列标准任务,比如在电商网站购买特定商品、发送邮件、编辑文档等,然后观察智能体能否正确完成这些任务。评估过程中会记录每个操作步骤的准确性,统计任务完成的时间,计算成功率等关键指标。
主观评估则更像用户体验调研,关注智能体的表现是否符合人类的期望和使用习惯。这类评估邀请真实用户与智能体进行交互,收集他们对于操作合理性、响应速度、交互友好程度等方面的反馈。由于人工评估成本较高且难以规模化,许多研究开始使用大语言模型作为评判者,让AI来评价AI的表现。这种方法能够提供详细的评价解释,帮助研究人员理解智能体的优势和不足。
评估指标的设计分为步骤级和任务级两个层面。步骤级评估就像检查学生解题的每一个过程,关注智能体在执行每个具体操作时的准确性。这包括动作选择是否正确、目标元素定位是否准确、操作参数是否合适等。对于涉及文本生成的任务,评估还会使用传统的自然语言处理指标,比如BLEU分数来衡量生成内容的质量。
任务级评估则更注重最终结果,就像只关心学生是否得出了正确答案。主要指标包括任务成功率,即智能体能否最终完成用户指定的目标。除了成功与否,评估还会考虑执行效率,包括完成任务所需的步骤数量、时间消耗、资源使用等。一些评估还引入了奖励函数的概念,根据任务完成的质量和效率给出综合评分。
五、评估基准:真实世界的考试题库
为了客观评估操作系统智能体的能力,研究社区开发了大量的基准测试,这些基准就像是为AI助手设计的各种"考试题目",涵盖了从简单到复杂的各种应用场景。
评估平台的选择反映了现代数字生活的多样性。移动平台基准主要基于Android和iOS系统,这些基准测试智能体在处理手机应用时的能力。移动设备虽然屏幕较小,界面相对简洁,但需要处理触摸手势、应用切换、通知处理等特有的交互模式。桌面平台基准则覆盖了Windows、Linux、MacOS等主流操作系统,测试智能体在处理复杂桌面应用时的表现。桌面环境通常提供更丰富的功能和更复杂的工作流程,对智能体的规划和执行能力提出了更高要求。网页平台基准关注智能体在各种网站和Web应用中的表现,这类环境的特点是内容动态变化,需要智能体具备强大的适应能力。
基准设置的设计考虑了评估的可行性和可重复性。静态环境基准使用预先保存的网页快照或应用界面,确保每次测试都在相同条件下进行。这种方法的优势是测试结果稳定可比较,但缺点是无法反映真实使用中的动态特性。交互式环境基准则更接近真实使用场景,智能体需要在动态变化的环境中完成任务。这类基准又分为模拟环境和真实环境两种。模拟环境通过虚拟应用或网站来避免现实世界的不可控因素,而真实环境基准则直接在真实的应用和网站中进行测试,虽然更具挑战性,但也更能反映实际应用价值。
任务类型的分类帮助研究人员全面评估智能体的各项能力。界面理解任务测试智能体是否能够正确理解和解析各种用户界面元素,这就像测试一个人是否能够看懂复杂的仪表盘。这类任务要求智能体准确识别按钮、链接、输入框等可交互元素,并理解它们的功能和状态。
信息处理任务评估智能体收集、整理和利用信息的能力。这包括信息检索任务,测试智能体能否从复杂的页面中找到特定信息,以及信息汇总任务,考察智能体整合多源信息的能力。这类任务就像要求助手从大量文档中找到关键信息并形成摘要报告。
智能体任务则是最综合的评估类别,要求智能体像人类用户一样完成完整的工作流程。这些任务可能跨越多个应用,需要智能体具备规划、执行、监控、调整等全方位能力。比如安排一次商务旅行可能需要智能体搜索航班信息、比较价格、预订机票、安排住宿、制定行程等多个步骤,每个步骤都可能需要在不同的网站和应用之间切换。
六、技术挑战与未来发展:通向真正智能助手的道路
尽管操作系统智能体技术已经取得了显著进展,但要实现真正像贾维斯一样的智能助手,仍然面临着诸多挑战。这些挑战就像登山路上的各种障碍,需要研究人员不断创新来逐一解决。
安全与隐私是当前最紧迫的挑战之一。当AI助手能够直接操作我们的设备时,就像给了一个陌生人我们家的钥匙,必须确保它不会被恶意利用。研究人员发现了多种针对操作系统智能体的攻击方式。有些攻击者会在网页中嵌入恶意指令,试图诱导智能体执行不当操作,这就像在路标上贴上错误的方向指示来误导司机。另一种攻击方式是通过精心设计的图像来混淆智能体的视觉理解系统,让它将恶意内容误认为正常操作指令。更隐蔽的攻击则会利用环境注入技术,在用户不知情的情况下控制智能体泄露个人信息。
针对这些安全威胁,研究人员正在开发多层次的防护机制。这包括输入验证系统,能够识别和过滤可疑的指令;行为监控机制,实时检测异常的操作模式;以及权限控制系统,限制智能体能够访问的系统功能和个人数据。一些研究还提出了基于人工反馈的安全训练方法,通过人类专家的指导来提高智能体的安全意识。
个性化与自我进化能力是实现真正智能助手的另一个关键挑战。理想的AI助手应该能够学习用户的偏好和习惯,就像一个贴心的管家会记住主人喜欢的咖啡口味和作息时间。当前的智能体大多缺乏这种个性化学习能力,它们更像是按照固定程序工作的机器人,而不是能够成长和适应的智能伙伴。
实现个性化需要智能体具备多层次的记忆和学习机制。短期记忆帮助智能体在单次交互中保持上下文连贯性,中期记忆存储用户在一段时间内的行为模式,而长期记忆则需要捕获用户的深层偏好和价值观。这种记忆系统不仅要能够存储信息,还要能够随时间演化,就像人类的记忆会随着新经历而更新和重组。
自我进化能力则要求智能体能够从经验中学习并持续改进。这不仅包括从成功经验中学习有效策略,还要能够从失败中吸取教训,避免重复犯错。一些研究正在探索让智能体通过与环境的交互来自主发现新的操作技巧,或者通过观察用户的操作来学习更高效的工作方法。
技术标准化也是推动领域发展的重要议题。目前不同研究团队使用的评估方法、数据格式、交互协议都存在差异,这就像不同厂商的产品使用不同的充电接口,给用户带来不便。建立统一的技术标准有助于促进不同系统之间的互操作性,也能够让研究成果更容易被其他团队复用和改进。
研究人员还在探索更高级的推理和规划能力。当前的智能体在处理复杂多步骤任务时仍然容易出错,特别是当环境发生意外变化时。未来的智能体需要具备更强的抽象思维能力,能够理解任务的本质目标而不仅仅是表面步骤,这样才能在遇到新情况时灵活应对。
多模态理解能力的提升也是重要发展方向。现实中的用户界面包含文字、图像、视频、音频等多种信息形式,智能体需要能够综合处理这些不同类型的信息。此外,随着虚拟现实和增强现实技术的发展,智能体还需要适应三维空间中的交互模式。
七、产业应用前景:改变我们的数字生活
操作系统智能体技术的发展正在推动一场数字生活方式的革命。这种变化不仅仅是技术进步,更是我们与数字设备交互方式的根本性转变。
在个人生活领域,智能助手将成为我们的数字生活管家。早晨起床时,它可能已经根据你的日程安排和天气情况为你规划好了一天的行程,订好了午餐,甚至预约了健身房。当你需要处理复杂的在线事务时,比如申请签证、税务申报、保险理赔等,智能助手能够代替你完成大部分繁琐的表格填写和文档提交工作,只在关键决策点征求你的意见。
对于老年人和有障碍的用户群体,这项技术的意义尤为重大。复杂的用户界面和频繁更新的应用程序经常让这些用户感到困惑和挫败。有了智能助手的帮助,他们可以通过自然语言描述需求,而不必学习复杂的操作步骤。这就像有了一个永不厌烦的技术支持专员,随时准备提供帮助。
在商业环境中,操作系统智能体将重新定义办公自动化。传统的办公软件要求用户掌握各种功能和操作技巧,而智能助手可以让用户专注于创意和决策,将执行层面的工作交给AI处理。比如,销售人员只需要说"根据上个月的数据制作一份客户分析报告",智能助手就能自动收集数据、生成图表、撰写分析内容,并按照公司模板格式化文档。
客户服务行业也将因这项技术而发生深刻变化。智能助手不仅能够回答客户问题,还能直接帮助客户完成各种操作,比如修改订单、处理退换货、更新个人信息等。这种能力让客户服务从纯粹的信息提供转向实际的问题解决,大大提升了服务质量和效率。
教育领域的应用前景同样令人兴奋。智能助手可以成为个性化的学习伙伴,根据学生的学习进度和理解能力调整教学内容。当学生在使用学习软件时遇到困难,助手能够实时提供指导,就像一个经验丰富的老师坐在旁边随时解答疑问。
然而,这种技术普及也带来了新的社会议题。大规模的任务自动化可能会改变就业结构,一些依赖重复性操作的工作可能会被智能助手替代。同时,过度依赖AI助手可能会导致人们数字技能的退化,就像GPS导航的普及让很多人失去了看地图的能力。
隐私保护也是需要认真考虑的问题。智能助手需要访问大量个人数据才能提供个性化服务,如何在享受便利的同时保护个人隐私,需要技术创新和法规制定的双重保障。
说到底,操作系统智能体技术代表了人工智能发展的一个重要里程碑。从最初的简单语音助手到现在能够直接操作设备的智能代理,我们正在见证AI从"理解"向"行动"的跨越。这项由浙江大学等多家机构联合推出的综合调研,不仅全面梳理了当前技术发展的现状,更为未来的研究指明了方向。
虽然距离真正的贾维斯级别智能助手还有一段路要走,但技术发展的步伐正在加速。随着计算能力的提升、训练数据的丰富、算法的改进,以及产业界的积极投入,我们有理由相信,在不久的将来,每个人都能拥有一个真正智能的数字伙伴。这个伙伴不仅能理解我们的需求,还能主动帮助我们处理日常事务,让我们从繁琐的数字操作中解放出来,专注于更有创意和价值的工作。
当然,在享受技术便利的同时,我们也需要思考如何在人与AI的协作中保持人类的主导地位,确保技术发展服务于人类福祉的最终目标。这需要技术研究者、政策制定者、产业界和社会各界的共同努力,在推动技术创新的同时,建立相应的伦理规范和安全保障体系。
Q&A
Q1:什么是操作系统智能体?它和普通的语音助手有什么区别?
A:操作系统智能体是能够直接操作电脑、手机等设备的AI助手,不同于Siri、小爱等只能语音对话的助手。它们能够"看懂"屏幕内容,像人类一样点击按钮、填写表格、浏览网页,自动完成网购、邮件处理等复杂任务,就像电影中的贾维斯一样能够实际控制各种系统。
Q2:操作系统智能体现在能做哪些具体的事情?
A:目前的操作系统智能体已经能够处理很多日常任务,比如在电商网站购买商品、发送和管理邮件、制作文档和报告、预订餐厅和酒店、处理在线表格填写等。它们能够跨越不同的应用和网站,按照用户需求自动完成多步骤的操作流程,大大减少人工操作的繁琐性。
Q3:操作系统智能体的安全性如何保障?会不会泄露个人隐私?
A:研究人员已经识别出多种安全风险,包括恶意网页诱导、隐私信息泄露等问题,并正在开发多层防护机制。这包括输入验证系统过滤可疑指令、行为监控检测异常操作、权限控制限制访问范围等。虽然技术还在完善中,但安全和隐私保护已经成为这个领域最重要的研究方向之一。
好文章,需要你的鼓励
AIM Intelligence联合多所知名大学揭示了音频AI系统的重大安全漏洞,开发出名为WhisperInject的攻击方法。这种攻击能让看似无害的音频指令操控AI生成危险内容,成功率超过86%,完全绕过现有安全机制。研究暴露了多模态AI系统的系统性安全风险,对全球数十亿智能设备构成潜在威胁。
新加坡国立大学研究团队系统梳理了视觉强化学习领域的最新进展,涵盖超过200项代表性工作。研究将该领域归纳为四大方向:多模态大语言模型、视觉生成、统一模型框架和视觉-语言-动作模型,分析了从RLHF到可验证奖励范式的政策优化策略演进,并识别出样本效率、泛化能力和安全部署等关键挑战,为这一快速发展的交叉学科提供了完整的技术地图。
浙江大学研究团队通过OmniEAR基准测试揭示了当前AI模型在物理世界推理方面的严重缺陷。测试显示,即使最先进的AI在明确指令下能达到85-96%成功率,但面对需要从物理约束推断行动的任务时,成功率骤降至56-85%。研究发现信息过载反而降低AI协作能力,监督学习虽能改善单体任务但对多智能体协作效果甚微,表明当前架构存在根本局限性。
纽约大学和Aimpoint Digital Labs的研究团队首次揭示了Transformer模型训练中"大规模激活"的完整发展轨迹。这些影响力比普通激活大千倍的"超级激活"遵循可预测的数学规律,研究者开发出五参数公式能以98.4%准确率预测其变化。更重要的是,通过调整模型架构参数如注意力密度、宽深比等,可以在训练前就预测和控制这些关键激活的行为,为设计更高效、量化友好的AI模型提供了全新工具。