微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 高通AI研究院揭秘:当手机AI助手遇上云端大脑,谁来掌舵效果更好?

高通AI研究院揭秘:当手机AI助手遇上云端大脑,谁来掌舵效果更好?

2026-06-04 09:15
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-06-04 09:15 科技行者

这项由高通AI研究院(Qualcomm AI Research)主导的研究,于2026年5月发表在ICML 2026的"Agents in the Wild: Safety, Security, and Beyond"研讨会论文集中,论文编号为arXiv:2605.30102v1。有兴趣深入了解的读者可以通过该编号在arXiv学术平台上查阅完整原文。

研究的核心问题其实非常贴近我们每个人的日常:当你使用手机上的AI助手完成一项复杂任务时,这个AI究竟应该完全在你的手机上运行,还是每次都把问题"打包"发送到远在千里之外的云端服务器去处理?或者说,有没有一种更聪明的方式,让手机端的小AI和云端的大AI互相配合、取长补短?这正是这篇论文试图系统性探索的问题。

研究团队将这个问题的答案搭建在一个颇具实验精神的框架上:他们设计并测试了两种不同的"云边协作"多智能体系统架构,在三个难度递增的任务测试集上进行了详尽的比较,试图找出在准确性、云端花费与设备耗电量这三者之间达到最优平衡的方法。

一、先搞清楚问题的由来:为什么一台AI不够用?

在正式介绍研究方案之前,有必要理解研究团队为何要解决这个问题。

目前最强大的AI语言模型,比如GPT-4o,通常运行在云端的服务器集群上。这些模型拥有数百亿甚至更多参数,需要强大的计算资源才能运行,普通用户只能通过网络API调用,而且每次调用都要付费。对于简单的问答,这种成本尚可接受,但对于需要AI连续执行数十步操作的复杂任务,费用会迅速累积。更麻烦的是,很多用户对将个人数据上传到云端心存顾虑,而且云端服务有时会下线或限流,造成不可预期的中断。

另一方面,随着技术进步,小型语言模型(Small Language Models,简称SLM)的能力大幅提升。一个参数量为40亿到320亿的模型,完全可以运行在高端手机或普通笔记本电脑上。这类模型成本低、响应快、隐私风险小,但在处理复杂、长流程任务时,能力仍然明显弱于云端大模型。特别是设备端模型受限于设备内存,能处理的"上下文长度"(也就是AI一次能看多少文字)远比云端模型短,这在需要记忆大量历史信息的长任务中是个严重瓶颈。

正因如此,研究团队提出了"混合多智能体系统"(Hybrid Multi-Agent System)的思路:让一个运行在设备上的小模型承担主要的执行工作,同时由一个部署在云端的大模型在关键时刻介入,提供指导或纠正。这种组合既能减少云端调用费用,又能在必要时借助大模型的强大能力——好比你平时自己查地图、自己开车,只有真的迷路了才打电话给导航专家求助。

二、两种协作模式:大脑指挥手,还是手带着大脑走?

研究团队并没有凭空设计架构,而是从已有的多智能体系统研究中提炼出两种颇具代表性的协作模式,分别命名为PEVR和EVA。理解这两种模式,是读懂整篇研究的关键。

第一种是PEVR,全称"规划—执行—验证—重规划"(Plan-Execute-Verify-Replan)。在这个模式下,云端大模型扮演的是"项目经理"的角色:任务一开始,它先根据用户的需求,生成一份详细的自然语言执行计划,比如第一步做什么、用什么工具、预期得到什么结果,然后将这份计划交给设备端的小模型去按步骤执行。小模型每执行若干步,云端大模型就会检查进度:如果发现执行偏离了计划,或者小模型卡壳了,大模型就重新规划剩余步骤,给小模型一份新的指令。这个架构的核心特征是:大模型不仅在中途监督,还在最开始就提供了详细的行动蓝图。

第二种是EVA,全称"执行—验证—建议"(Execute-Verify-Advise)。这个模式给了设备端小模型更多自主权:小模型拿到用户问题后直接开始行动,没有事先制定的详细计划。云端大模型定期查看小模型的执行情况,但只有在发现明显问题时才会介入。介入的方式也与PEVR不同——不是给出新的步骤计划,而是提供一份"回顾+建议":先总结小模型之前做了什么、发现了什么,再给出下一步的大方向性指引。与此同时,EVA架构还有一个独特设计:每当大模型介入并提供建议后,小模型的"记忆"会被清空,重新从建议出发,避免历史错误信息的干扰。

这两种模式都满足了研究团队提出的四个核心设计原则:复杂、耗时的执行工作放在设备端完成以节省云端费用;用户可以通过调整"验证间隔"来控制大模型介入的频率,进而调控成本与性能之间的平衡;每次大模型介入后都会重置小模型的上下文,防止设备内存溢出。

三、测试擂台:从简单查资料到复杂操作手机应用

为了全面评估这两种架构,研究团队选择了三个难度递增的任务测试集,它们覆盖了从短程推理到长程交互的广泛场景。

第一个测试集是HotpotQA,要求AI阅读维基百科上的多篇文章,找到并综合来自不同来源的信息,回答一个需要"跳跃式推理"的问题,比如"X电影的导演和Y电影的主演是同一个人吗?"这类任务流程相对短,通常几步就能完成,考察的是基本的信息检索和推理能力。

第二个测试集是FanOutQA,可以理解为HotpotQA的"加强版":问题需要同时查找多个相关实体的信息,并进行汇总聚合,比如"以下十个城市中,哪些在2020年的人口超过500万?"这类任务需要更长的推理链和更强的中间状态追踪能力。

第三个测试集是AppWorld,难度最高,也最接近真实应用场景。它模拟了一个拥有购物、邮件、支付、笔记等九个应用的虚拟手机生态系统,AI需要通过调用这些应用的API,完成多步骤、有状态的任务,比如"查看购物车的总价,然后通过Venmo向朋友请求这笔钱"。任务不仅流程长,还有严格的状态检查——如果AI中途做错了(比如把钱转给了错误的人),可能造成无法挽回的后果。这个测试集最能体现长程任务中AI的规划、纠错和状态追踪能力。

在模型选择上,云端大模型固定使用GPT-4o,设备端模型则选择了Qwen3系列的4B、8B、14B和32B四个规格(数字越大,模型越强但也越耗资源)。4B和8B级别的模型可以在智能手机上运行,14B和32B级别的则适合高性能笔记本。通过调整大模型介入的频率(验证间隔),研究团队系统地探索了不同配置下性能与成本的变化曲线。

四、意外收获:越多云端干预,不等于越好的结果

研究的整体结论并不像人们直觉上期望的那样简单,研究团队发现了几个颇为出人意料的规律。

最直观的好消息是:混合架构确实有效。在所有测试场景中,都能找到某种MAS配置,其效果优于纯设备端的单体模型,同时成本低于纯云端的单体模型。这说明云边协作本身是个有价值的方向,设备端小模型确实可以从云端大模型的协助中受益。

然而,第一个出人意料的发现是:没有哪种架构在所有任务上都是最优的。PEVR在AppWorld上明显优于EVA,但在HotpotQA和FanOutQA上,情况反过来,EVA表现更好,而PEVR甚至有时连纯设备端单体模型都不如。这说明架构的优劣高度依赖于具体任务的性质,没有"放之四海而皆准"的最优方案。

第二个出人意料的发现是:增加云端介入频率并不总是提升性能,反而有时会造成明显伤害。在两种架构中,都存在一个"最优验证间隔",当介入频率超过这个阈值时,任务准确率开始下滑。这打破了"大模型介入越多越好"的直觉。

为了弄清楚背后的原因,研究团队做了深入的机制分析。他们发现:在AppWorld这类需要严格按步骤执行、前期行动直接影响后续状态的任务中,PEVR的优势在于它从一开始就提供了一份详细、明确的步骤计划,小模型只需按图索骥。相比之下,EVA没有初始计划,小模型需要自己摸索,更容易因早期操作失误而造成难以逆转的后果。

在FanOutQA这类深度搜索任务中,情况正好相反。研究团队通过分析大量任务轨迹发现,PEVR的监督机制倾向于"误报"——它经常在小模型其实正常运行的时候也触发干预重启。数据显示,在PEVR架构下,同一个任务中小模型被重复重启的情况相当普遍,而重启次数与任务成功率呈明显负相关。换句话说,PEVR的"过度积极介入"反而打断了小模型好不容易建立起来的推理脉络。EVA的查询导向型监督则更加保守,只在真正出现问题时才介入,对长程搜索任务更为友好。

五、一张误报率表格揭示的深层秘密

为了更精确地量化两种架构在监督决策上的差异,研究团队设计了一个巧妙的对照实验:让监督大模型正常运行并给出是否介入的判断,但实际上不执行任何介入操作,让小模型一路执行到底。这样就能事后对照大模型的判断和任务实际结果,统计误报率和漏报率。

结果非常清晰。在AppWorld上,PEVR的误报率为6.2%(大模型认为需要干预但实际上任务本来能成功),EVA的误报率仅为1.9%。在FanOutQA上,PEVR的漏报率为8.4%,远低于EVA的14.8%——这意味着当任务真的出了问题时,基于计划的监督更能准确察觉。但恰恰是PEVR在FanOutQA上6.1%对比EVA的7.7%的误报率差距,叠加上重启本身对长程推理的破坏性,导致了PEVR在搜索类任务上的明显劣势。

这个发现揭示了一个微妙的设计原则:对于执行步骤明确、状态转移严格的任务(如UI操作),激进的监督和频繁的纠偏是有益的;而对于需要连续积累信息、构建长推理链的任务(如深度搜索),保守的监督和避免不必要的重启则更为重要。监督策略必须与任务类型相匹配,不可一刀切。

六、角色互换实验:把云端模型降为执行者会怎样?

研究团队还尝试了一个"反向配置"实验:把云端的GPT-4o用作执行者,把设备端的Qwen小模型用作监督者。直觉上,这似乎能借助云端大模型更强的执行能力来提升性能。然而实验结果令人惊讶——这种配置在所有测试任务上,效果都不如纯云端单体模型,成本却更高。

原因在于:云端大模型承担执行工作时,每一步的推理都会产生大量输出token,API费用急剧上升,而且执行工作本身高度串行,云端高并发的优势完全发挥不出来。同时,设备端小模型的监督能力有限,无法有效识别何时需要干预。这个实验有力地支持了一个核心设计原则:在混合系统中,执行工作应当在设备端进行,云端大模型的稀缺资源应当被节省用于高级决策。

七、混合系统是两个单体的简单叠加吗?

研究团队还通过韦恩图分析了一个有趣的问题:混合MAS系统解决的任务,究竟是不是纯设备端模型和纯云端模型能解决任务的简单并集?

答案是否定的。在所有三个测试集上,混合MAS系统都成功完成了一些既不是纯设备端模型、也不是纯云端模型能独立完成的任务。这证明了混合协作产生了真正的"涌现能力"——系统的整体能力超越了其组件能力的简单相加。与此同时,数据也显示,三种系统(纯设备端、纯云端、混合MAS)各有其独有的擅长任务,没有任何一种配置能完全主导另外两种。这意味着理想情况下,一个真正智能的系统应当能够根据具体任务的特点,动态地选择最合适的协作模式,而非固定采用某一种架构。

八、节省内存这件事,比想象中重要得多

设备端部署AI模型面临的一个严峻约束是内存。小模型在处理长任务时,需要在内存中缓存大量的"上下文"信息(也就是KV缓存,可以理解为AI的工作记忆),内存一旦满了,性能会大幅下降甚至出错。

研究数据非常直观:以纯设备端单体模型在AppWorld上运行为例,当最大允许步数从20步增加到80步时,Qwen3-8B的KV缓存峰值从3.52GB膨胀到5.17GB,而且当步数达到80时,约20%的任务会因为上下文溢出而直接失败,任务成功率反而从最高时的0.02下降到0.00。混合PEVR架构则完全不同:相同条件下,KV缓存峰值从3.34GB增至3.82GB,增长幅度远小于单体模型,而任务成功率随步数增加从0.07稳步提升到0.11,没有出现崩溃式下降。

背后的原因就是之前提到的上下文重置机制。每次大模型介入并给出新的计划或建议后,小模型的历史对话记录会被清空,重新从一个干净的状态出发。这既消除了积累的错误信息,又将工作记忆的占用量控制在可管理范围内。研究团队还测算了实际部署中的内存占用情况:结合GPTQ量化方案,Qwen3-8B的权重加KV缓存总占用不超过6GB,完全在主流手机的可用内存范围内;Qwen3-32B的总占用不超过16GB,适合高性能笔记本。这说明混合MAS架构在解决内存约束方面具有实际可行性,并非纯粹的理论方案。

九、EVA的摘要功能:一把双刃剑还是秘密武器?

EVA架构有一个PEVR没有的特性:大模型在介入时不仅给出建议,还会先对小模型之前做的事情进行总结压缩,然后把这个精简版的历史信息交给重启后的小模型参考。这看起来似乎是EVA在深度搜索任务上表现好的重要原因。

然而,研究团队专门做了消融实验来检验这个假设,结果出人意料:去掉EVA的摘要功能后,EVA在FanOutQA上的表现几乎没有变化。这说明EVA的优势并不来自摘要功能本身,而主要来自它查询导向的监督逻辑(更少误报)以及建议式的介入方式(更温和的纠偏)。不过摘要功能对降低KV缓存占用确实有贡献,因此它在内存管理上仍然有其价值,只是并非性能提升的核心驱动因素。

这个发现提醒研究者:在多智能体系统设计中,直觉上看起来很有用的功能,实际效果需要严格的消融实验来验证,不能想当然地认为"更多功能=更好性能"。

说到底,这篇来自高通AI研究院的研究做了一件非常有意义的事:它没有简单地宣称"混合AI是未来"或者"云端大模型无所不能",而是踏踏实实地测量、分析、对比,给出了一个诚实且细腻的答案。

核心结论可以用一句话概括:云边协作是可行的,但没有通用最优方案,架构选择必须跟任务类型严格匹配。对于需要精确按计划执行的操作类任务,由云端大模型制定详细计划并严格监督的PEVR架构效果更好;对于需要灵活探索、积累信息的搜索类任务,让设备端小模型自主发挥、云端大模型保守介入的EVA架构更合适。云端介入得越多,并不意味着越好——超过某个阈值后,反而会适得其反。

对于普通用户而言,这项研究预示着未来的AI助手将可能更加智能地在设备本地和云端之间动态调度,而不是像现在这样非此即彼。你的手机AI或许有一天能在处理日常小任务时完全在本地运行,既快速又保护隐私;而当遇到真正棘手的复杂任务时,才会向云端求援,获得恰到好处的指导。

研究团队也坦承,目前的研究还有一些局限:测试场景仅涵盖深度搜索和UI操作两类任务,云端模型只用了GPT-4o一种,为了控制实验成本也没有进行多轮重复实验。如何设计一个能根据任务特点自动选择最优协作架构的"元系统",是研究团队明确点出的值得探索的未来方向。有兴趣深入了解技术细节的读者,可以通过arXiv编号2605.30102查阅完整论文。

Q&A

Q1:混合多智能体系统(Hybrid MAS)和普通AI路由系统有什么区别?

A:普通AI路由系统是把一个问题直接分配给云端大模型或设备端小模型中的一个来回答,两者没有协作。而混合多智能体系统则不同,设备端模型和云端模型在同一个任务里扮演不同的角色——设备端模型负责一步步执行,云端模型负责定期监督和纠偏。两者的分工不是"谁来回答问题",而是"谁来执行、谁来指挥",因此能产生超越单独任一模型的能力。

Q2:PEVR架构和EVA架构分别适合什么类型的任务?

A:PEVR(规划—执行—验证—重规划)更适合步骤明确、执行顺序严格、操作失误代价高的任务,比如操作手机应用完成多步骤指令。EVA(执行—验证—建议)更适合需要灵活探索、持续积累信息的搜索类任务,比如在多个网页中汇总信息回答复杂问题。关键区别在于:PEVR从一开始就提供详细计划,EVA让执行者自主发挥、监督者保守介入。

Q3:为什么增加云端AI的介入频率反而会降低任务成功率?

A:主要原因是不必要的"上下文重置"打断了AI正在构建的推理链。在搜索类任务中,AI需要连续积累多步的信息才能形成完整判断。如果云端监督频繁介入并强制清空历史记录重新开始,即使每次重置都带来新的指导,也会让之前积累的有效信息白白丢失。实验数据显示,任务中被重启的次数越多,最终成功率越低,这说明过度干预本身就是一种伤害。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-