微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 这款会"进化"的手机助手,让智能手机变得前所未有地聪明——伊利诺伊大学联合阿里巴巴推出Mobile-Agent-E

这款会"进化"的手机助手,让智能手机变得前所未有地聪明——伊利诺伊大学联合阿里巴巴推出Mobile-Agent-E

2025-09-15 09:17
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-09-15 09:17 科技行者

在这个人人都离不开智能手机的时代,我们平均每天要在手机上花费4.5小时。然而,当你需要在多个应用之间跳转比价购物,或者需要从不同网站收集信息时,是否感到过frustrated?伊利诺伊大学厄巴纳-香槟分校的Zhenhailong Wang、Heng Ji等研究者,联合阿里巴巴集团的Haiyang Xu、Ming Yan等科学家,在2025年1月发表了一项突破性研究成果Mobile-Agent-E。这项研究发表在预印本平台arXiv上,感兴趣的读者可以通过DOI: arXiv:2501.11733v2访问完整论文。

想象一下,如果你的手机有一个超级聪明的数字助手,它不仅能帮你完成复杂的多步骤任务,还能从每次使用中学习经验,变得越来越高效。这正是Mobile-Agent-E要实现的愿景。这个系统就像一个会学习成长的智能管家,能够代替你在手机上完成那些繁琐的操作序列。

当前的手机智能助手面临两个关键问题。第一个问题是能力不足:现有的手机助手通常只能处理简单、直接的任务,比如"导航到附近的加油站"。但真实生活中我们需要的任务要复杂得多——比如在多个购物应用中比较价格找到最优惠的商品,或者制定一份综合考虑多种因素的旅行计划。这些任务需要深度推理、跨多个应用的长期规划,以及在模糊指令下的主动探索。

第二个问题更加根本:现有的智能助手就像患了健忘症的新手,每次执行任务时都从零开始,重复犯同样的错误。相比之下,当人类用户第一次打开一个新应用时,可能需要一些尝试才能理解布局并成功执行搜索。但通过每次交互,用户会学习和改进,下次使用时会更快更准确。现有的手机助手却缺乏这种从过往经验中学习的能力。

为了解决这些核心问题,研究团队开发了Mobile-Agent-E,这是一个具有自我进化能力的分层多智能体框架。这个系统的设计理念就像一个高效的公司组织架构:有一个负责制定总体战略的经理,以及几个各司其职的专门员工。

一、分层管理的智能团队

Mobile-Agent-E的核心创新在于将复杂的决策过程分解成两个层次:高层规划和低层执行。这种分层设计就像建筑工程一样,有总工程师负责整体设计,有各种专业工人负责具体施工。

系统的"经理"(Manager)专门负责制定总体计划。当你给出一个复杂任务时,比如"我想买一个全新的任天堂Switch Joy-Con手柄,任何颜色都可以,请在亚马逊、沃尔玛和百思买中比较价格,找到最便宜的选项",经理会将这个大任务分解成一系列子目标:首先打开亚马逊搜索产品,然后记录价格,接着切换到沃尔玛重复同样操作,最后在百思买进行搜索,并比较三家的价格。

在经理制定计划的同时,四个专业的下属智能体分工协作。感知者(Perceptor)就像系统的"眼睛",专门负责理解当前手机屏幕上显示的内容,识别图标、文字和界面元素。操作者(Operator)是系统的"双手",根据经理的指示执行具体的点击、滑动、输入等操作。动作反思者(Action Reflector)充当"质检员",检查每个操作是否达到了预期效果,如果发现错误会及时反馈。记录员(Notetaker)则负责收集和整理任务过程中的重要信息,比如商品价格、餐厅电话等。

这种分层架构的优势非常明显。经理专注于全局规划,不会被具体操作细节分散注意力,因此能够制定更合理的长期策略。同时,当低层操作遇到问题时,系统有完善的错误恢复机制。如果操作者连续犯错,错误会被上报给经理,经理会从更高的角度重新调整策略来解决问题。

二、会学习的数字大脑

Mobile-Agent-E最令人印象深刻的功能是它的自我进化能力。系统拥有一个持续的长期记忆,存储两种类型的知识:技巧(Tips)和快捷方式(Shortcuts)。

技巧就像人类的经验教训,是系统从之前的试错过程中学到的一般性指导原则。比如,在经过多次购物比价任务后,系统可能学会这样的技巧:"在确定最佳交易时,要同时考虑价格和功能特性,并确保任何折扣或促销信息都被清楚标注",或者"在使用筛选器时,滑动操作通常比点击更有效"。这些技巧类似于人类的情节记忆,帮助系统在未来遇到类似情况时做出更好的决策。

快捷方式则像熟练工人掌握的标准操作程序,是可以重复使用的操作序列。比如,系统可能学会创建一个名为"点击输入并搜索"的快捷方式,将"点击搜索框、输入文字、按回车"这三个步骤合并成一个可复用的功能模块。由于手机环境变化很快,每个快捷方式都配有明确的使用条件,确保只在合适的情况下使用。

系统配备了两个专门的"经验反思者",它们像认真的学生一样,在每个任务完成后分析整个过程,更新技巧库和快捷方式库。这些反思者会考虑当前任务的执行情况、遇到的问题,以及未来可能面临的类似任务,从而提取出有价值的经验。

这种学习机制的效果是累积的。随着系统执行的任务越来越多,它的表现会逐步提升。实验结果显示,启用自我进化功能后,系统的满意度得分提升了6.5%,而且随着任务序列的推进,后续任务的改进效果更加显著。

三、更贴近真实需求的测试标准

为了验证Mobile-Agent-E的效果,研究团队还开发了一个全新的测试基准Mobile-Eval-E。现有的手机智能体测试大多关注简单、短期的任务,而且性能已经接近饱和。Mobile-Eval-E专门设计了复杂的真实世界任务,更贴近普通用户的实际需求。

这个基准包含25个精心设计的任务,覆盖5个真实场景:餐厅推荐、信息搜索、网购比价、热门趋势和旅行规划。与之前的测试相比,Mobile-Eval-E的任务复杂度大幅提升,平均每个任务需要执行14.56个操作,是之前测试的两倍多。更重要的是,76%的任务需要在多个应用之间切换,而之前的测试中这一比例不到10%。

由于真实世界的任务往往没有标准答案,研究团队还创新了评价方法。他们不再简单地判断"成功"或"失败",而是制定详细的评分准则,既考虑里程碑式的完成情况(比如"成功打开了地图应用"),也考虑探索性的行为表现(比如"查看了多条用户评论")。这种"满意度得分"更能反映用户对智能助手表现的真实感受。

四、令人瞩目的性能表现

实验结果证明了Mobile-Agent-E的有效性。在Mobile-Eval-E基准测试中,Mobile-Agent-E相比之前最好的方法实现了22.1%的绝对性能提升。在GPT-4o、Claude-3.5-Sonnet和Gemini-1.5-pro三种不同的基础模型上,这种改进都是一致的。

更令人印象深刻的是系统的学习效果。随着任务执行顺序的推进,后期任务显示出更显著的性能提升,证明了自我进化机制的有效性。系统不仅能够积累经验,还能将这些经验有效地应用到新任务中。

在效率方面,快捷方式的使用显著减少了计算开销。虽然分层多智能体架构在理论上增加了计算复杂度,但快捷方式能够在单次决策中执行多个操作,实际上提高了整体效率。启用自我进化后的系统执行速度甚至可以与之前的简单框架相媲美,但性能却显著更好。

研究团队还进行了一个闭环自我进化的案例研究。当系统积累了大量技巧和快捷方式后,它能够智能地检索出与当前任务相关的经验知识,并成功完成全新的复杂任务。这展示了系统在实际应用中的可扩展性。

五、技术创新的深层意义

Mobile-Agent-E的技术创新不仅仅体现在性能数字上,更重要的是它代表了智能手机助手发展的新方向。传统的单一智能体方法就像让一个人同时担任建筑师、工程师、施工队长和质检员,难免顾此失彼。分层多智能体架构通过合理的分工协作,让每个组件都能专注于自己最擅长的任务。

自我进化功能更是具有深远意义。它不仅解决了重复任务的效率问题,更重要的是为智能系统的持续改进提供了框架。系统能够从失败中学习,将偶然的成功转化为可复用的经验,这正是人工智能向更高智能水平发展的关键特征。

当然,系统目前还存在一些限制。比如,有时会因为错误理解手机界面状态而误用快捷方式,或者生成的快捷方式本身可能存在缺陷。但这些问题为未来的改进指明了方向。

研究团队特别强调了安全性考虑。随着智能助手能力的增强,如何确保它们的行为始终符合用户意图变得越来越重要。未来的工作将重点加强隐私保护、用户同意确认和潜在危险操作的预警机制。

Mobile-Agent-E的出现标志着智能手机助手从简单的指令执行工具向真正智能的数字伙伴转变。它不仅能够处理复杂的现实任务,还能从经验中持续学习和改进。虽然目前还处于研究阶段,但这项技术的发展方向清晰地指向一个未来:我们的智能手机将拥有真正理解我们需求、能够独立思考和学习的数字助手。

说到底,Mobile-Agent-E展示了人工智能技术如何从实验室走向真实应用的可能路径。它不是简单的技术炫技,而是针对用户实际痛点的系统性解决方案。随着这类技术的成熟和普及,我们与智能设备的交互方式将发生根本性变革,手机真正成为我们生活中不可或缺的智能伙伴。

Q&A

Q1:Mobile-Agent-E和普通手机助手有什么区别?

A:Mobile-Agent-E最大的不同在于它会学习和进化。普通手机助手每次都从零开始执行任务,而Mobile-Agent-E能从过往经验中学习技巧和快捷方式,变得越来越聪明高效。它还采用分层架构,有专门的"经理"负责规划,多个"员工"负责执行,能处理更复杂的多应用任务。

Q2:Mobile-Agent-E的自我进化功能是如何实现的?

A:系统拥有长期记忆,存储两种知识:技巧(从试错中学到的经验教训)和快捷方式(可重复使用的操作序列)。每完成一个任务,两个"经验反思者"会分析整个过程,更新知识库。这些经验会在后续任务中被调用,让系统表现越来越好。

Q3:这项技术什么时候能在普通手机上使用?

A:目前Mobile-Agent-E还处于研究阶段,论文发表在学术预印本平台上。虽然实验结果很有前景,但要真正应用到消费级手机产品中,还需要解决安全性、隐私保护、用户界面设计等问题。研究团队正在开发相关的安全机制和用户确认流程。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-