微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 哈工大团队革命性突破:AI智能体终于学会了像人类一样长期规划和思考

哈工大团队革命性突破:AI智能体终于学会了像人类一样长期规划和思考

2025-06-19 16:57
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-19 16:57 科技行者

这项由哈尔滨工业技术深圳校区的谢雨权、李再锦、邵瑞、陈公威等研究人员,联合鹏程实验室和华为诺亚方舟实验室共同完成的研究发表于2025年6月12日的arXiv预印本平台。有兴趣深入了解的读者可以通过arXiv:2506.10387v1访问完整论文。

当你打开手机想要完成一个看似简单的任务时,比如给朋友创建联系人、打电话、然后发送一条短信,你会发现自己需要在多个应用之间切换,记住每一步的操作顺序,并且根据界面的变化随时调整策略。这种看起来毫不费力的多步骤操作,对于目前的AI智能体来说却是一个巨大的挑战。

现在,哈工大的研究团队提出了一个名为Mirage-1的AI智能体系统,它就像一个经验丰富的手机使用专家,不仅能够理解复杂的多步骤任务,还能像人类一样进行长期规划和灵活应对。这个系统的核心创新在于它拥有一个分层式的技能学习系统,就好比一个厨师不仅记住了具体的菜谱,还掌握了烹饪的基本技法,甚至理解了不同菜系之间的共通原理。

研究团队发现,目前的AI智能体在处理图形用户界面时面临两个主要困境。第一个困境就像是一个只会照着菜谱做菜的新手厨师,遇到需要准备一桌子菜的复杂任务时就手忙脚乱,因为它缺乏整体规划能力。现有的AI智能体只能根据最终目标做出简单决策,就像只知道"要做红烧肉"但不知道先准备什么、后做什么、如何协调时间安排的厨师一样。

第二个困境则像是一个只在厨房练习过的厨师突然要在野外生火做饭,环境的变化让它无所适从。AI智能体在离线环境中训练时表现不错,但一旦面对真实的在线环境,应用界面的更新、按钮位置的变化、甚至不同应用之间的差异都会让它们陷入困境。这就像是一个只会用电磁炉的厨师突然要用燃气灶一样,同样的烹饪技能却因为工具环境的不同而无法发挥。

为了解决这些问题,研究团队设计了一个革命性的解决方案。他们的Mirage-1系统包含了一个叫做"分层多模态技能模块"的核心组件,这个模块就像是一个经验丰富的师傅建立的知识体系。这个体系分为三个层次,就好比厨艺学习的三个阶段。

最基础的层次叫做"执行技能",它记录的是具体的操作步骤,就像详细记录"如何做麻婆豆腐"的完整菜谱,包括每一个具体步骤、用料分量和操作细节。这一层记录了智能体在完成特定任务时的具体操作轨迹,为后续的抽象学习奠定基础。

中间层次是"核心技能",它将多个相似的具体操作抽象成通用的功能模块,就像从"做麻婆豆腐"、"做红烧肉"、"做糖醋里脊"等具体菜谱中抽象出"炒菜技法"这样的通用技能。比如,多个添加联系人的具体操作可以抽象成一个通用的"添加联系人"核心技能,这个技能可以应用到不同的联系人和不同的场景中。

最高层次是"元技能",它统筹协调多个核心技能来完成复杂任务,就像一个总厨师长不仅掌握各种烹饪技法,还知道如何搭配菜谱、安排烹饪顺序、协调厨房工作流程。元技能能够理解不同核心技能之间的关系,并将它们组合起来解决复杂的多步骤问题。

这种分层设计的巧妙之处在于,它模仿了人类学习和应用技能的方式。当我们学会了发短信的基本操作后,就能够将这个技能应用到给不同人发送不同内容的消息中。当我们掌握了添加联系人、打电话、发短信等多个基本技能后,就能够组合使用这些技能完成更复杂的社交任务。

除了这个分层技能系统,研究团队还开发了一种叫做"技能增强蒙特卡洛树搜索"的在线学习算法。这个算法解决了从离线训练环境到在线真实环境的适应问题,就像是帮助厨师从练习厨房顺利过渡到真实餐厅工作的培训方法。

传统的蒙特卡洛树搜索就像是一个探险者在未知森林中随机探索寻找出路,虽然最终能找到目标,但过程效率很低。而技能增强版本则像是给探险者配备了地图和指南针,让探索过程更加有方向性和效率。具体来说,当AI智能体在在线环境中遇到新任务时,它不是盲目地尝试各种可能的操作,而是首先利用已有的技能知识来分解任务目标,生成可能的子目标,然后有针对性地探索最有希望的路径。

这种方法的优势在于它能够显著减少无效探索。就像一个有经验的导游带领游客游览城市,会根据以往的经验规划最优路线,避免走弯路,同时在遇到新情况时能够灵活调整。当AI智能体在探索过程中发现新的有效操作序列时,这些经验会被整合到分层技能系统中,不断丰富和完善智能体的知识库。

研究团队还为Mirage-1设计了一个分层规划器,这个组件就像是一个经验丰富的项目经理,能够将复杂的任务分解成可管理的子任务。当接到一个复杂任务时,分层规划器首先从元技能库中检索最相关的高级策略,然后利用对应的核心技能来生成具体的子目标序列。这个过程就像是一个建筑师先确定整体设计理念,然后制定详细的施工计划,最后安排具体的施工步骤。

系统中的操作器负责执行具体的动作,它可以与不同的底层技术组件结合,包括各种视觉定位模型。这种设计使得Mirage-1具有很强的适应性,就像是一个万能插头可以适配不同标准的电源插座。无论是在手机还是网页环境中,无论使用哪种具体的界面元素识别技术,Mirage-1都能够正常工作。

特别值得一提的是,研究团队还设计了一个决策反思器,这个组件就像是一个谨慎的顾问,在每个关键操作执行前进行评估和建议。决策反思器会分析当前的操作是否有助于完成任务目标,预测可能的结果,并在发现问题时及时提醒操作器重新考虑。这种机制大大提高了系统的可靠性和成功率。

为了验证Mirage-1的性能,研究团队进行了大规模的实验测试。他们选择了多个具有代表性的测试平台,包括AndroidWorld这个Android手机环境的在线基准测试,以及Mind2Web-Live这个网页环境的动态测试平台。这些测试平台就像是为AI智能体设计的"驾照考试场地",能够全面评估智能体在真实环境中的表现。

实验结果令人印象深刻。在AndroidWorld测试中,Mirage-1相比现有最好的方法取得了32%的性能提升。在MobileMiniWob++测试中,提升幅度达到了19%。在Mind2Web-Live网页测试中,也获得了15%的显著改进。这些数字背后反映的是AI智能体在处理复杂多步骤任务时能力的显著增强。

更重要的是,研究团队还专门创建了一个名为AndroidLH的新测试基准,用于评估AI智能体在长期任务规划方面的能力。这个基准包含了30个复杂的多应用操作任务,更接近真实用户的使用场景。在这个更具挑战性的测试中,Mirage-1取得了79%的惊人性能提升,证明了其在长期规划任务中的卓越表现。

为了深入理解系统各个组件的贡献,研究团队进行了详细的分解分析。他们发现,分层技能系统中的不同层次都发挥着重要作用。元技能层的移除导致了19.5%的性能下降,说明高级规划能力的重要性。核心技能和元技能的同时移除导致了29.1%的性能下降,进一步证实了抽象技能对于复杂任务处理的关键作用。

同时,研究团队还比较了不同记忆机制的效果。相比于简单的示例记忆方法,分层多模态技能系统展现出了明显的优势。这说明结构化的知识组织方式比简单的经验存储更加有效,就像是有序整理的图书馆比随意堆放的书堆更容易找到需要的信息。

在线探索策略的对比实验也证实了技能增强蒙特卡洛树搜索的优越性。相比于直接探索方法,这种技能引导的探索方式在相同时间内能够获得2.8倍的技能积累,并且比标准蒙特卡洛树搜索方法提高了41%的探索效率。这就像是有GPS导航的司机比盲目摸索的司机能够更快到达目的地并学会更多有用的路线。

研究团队还通过具体案例展示了Mirage-1的工作过程。在一个创建联系人并发送消息的任务中,系统首先从元技能库中识别出需要"联系人管理"和"短信消息管理"两个高级能力。然后,它调用相应的核心技能"添加联系人"和"发送短信"来生成具体的操作计划。最后,通过执行技能库中的具体操作序列来完成任务。整个过程体现了从抽象规划到具体执行的完整链条。

这项研究的意义远不止于技术层面的突破。它代表了AI智能体向真正智能化迈出的重要一步。过去的AI智能体更像是只会执行简单指令的机器人,而Mirage-1则更像是一个能够理解复杂任务、进行长期规划、并且能够从经验中学习的智能助手。

从实用角度来看,这种技术将使AI智能体能够处理更加复杂和真实的任务场景。用户将能够通过自然语言指令让AI助手完成跨应用的复杂操作,比如"帮我预订明天的会议室,然后给所有参会人员发送邀请,再在日历中创建提醒"。这种能力将大大提高数字设备的易用性和实用性。

研究团队也认识到当前系统的一些局限性。由于依赖大型语言模型,系统在推理过程中存在一定的计算开销。同时,规划器和底层操作组件之间的紧密耦合意味着底层组件的错误可能会影响整体任务的成功率。这些问题为未来的研究指明了方向。

从更广阔的视角来看,这项研究为AI智能体的发展开辟了新的路径。通过模仿人类的分层学习和技能积累方式,AI系统能够更加高效地掌握复杂技能并应用到新的场景中。这种思路不仅适用于图形界面操作,也可能推广到其他需要长期规划和技能积累的AI应用领域。

说到底,Mirage-1代表了AI智能体从"工具"向"助手"转变的重要里程碑。它不再是简单地执行预设指令的程序,而是能够理解复杂需求、制定执行计划、从经验中学习并适应新环境的智能实体。这种能力的提升将使AI技术更好地融入我们的日常生活,成为真正有用的数字伙伴。

虽然距离完全自主的AI助手还有一定距离,但Mirage-1已经展示了这种可能性的曙光。随着技术的不断发展和完善,我们有理由期待未来会出现更加智能、更加实用的AI助手,能够真正理解和满足人类的复杂需求。这不仅是技术进步的体现,更是人工智能向着更加人性化和实用化方向发展的重要标志。

对于有兴趣深入了解这项研究的读者,完整的技术细节和实验数据可以在arXiv平台上获得,论文编号为2506.10387v1。这项研究的开源代码和演示也可以通过项目主页https://cybertronagent.github.io/Mirage-1.github.io/访问,为研究者和开发者提供了宝贵的参考资源。

Q&A

Q1:Mirage-1是什么?它能做什么?

A:Mirage-1是由哈工大团队开发的AI智能体系统,它的核心能力是像人类一样处理复杂的多步骤任务。比如它能够在手机或网页上自动完成创建联系人、打电话、发短信这样需要跨应用操作的复杂任务。它最大的特点是具备长期规划能力和从经验中学习的能力。

Q2:Mirage-1会不会取代人类操作手机和电脑?

A:目前不会完全取代,但会大大简化复杂操作。Mirage-1更像是一个智能助手,能够帮助用户自动完成繁琐的多步骤操作,比如跨应用的复杂任务。它让用户可以通过简单的语言指令完成原本需要多个步骤的操作,提高效率而不是替代人类。

Q3:普通人什么时候能用上Mirage-1技术?

A:虽然Mirage-1目前还处于研究阶段,但其核心技术已经展现出很强的实用潜力。研究团队已经开源了相关代码,这意味着技术公司可以基于这些成果开发商业产品。预计在未来几年内,我们可能会在智能手机助手、自动化软件等产品中看到类似技术的应用。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-