
这项由腾讯YouTu Lab(优图实验室)联合北京大学人工智能研究院推出的突破性研究发表于2025年12月26日,研究团队包括蔡少飞、秦玉磊、林昊佳等多位研究者。有兴趣深入了解技术细节的读者可以通过arXiv:2512.22322v1查询完整论文。
想象一下你雇佣了一个助手来完成各种任务,比如在手机上订餐、发邮件或者安装应用。过去,你只能等助手完成后,再花大量时间仔细检查他是否真的把事情办好了。这种检查过程不仅耗时耗力,还经常出现误判——有时助手明明完成了任务,却因为检查方式有问题而被判定为失败。现在,腾讯YouTu Lab的研究团队开发出了一种革命性的解决方案SmartSnap,让AI助手学会了"自我证明"——它不仅要完成任务,还要主动提供令人信服的证据来证明自己确实完成了工作。
这项研究解决的核心问题就像是改变了整个工作验收流程。传统方式下,当一个AI智能体完成手机操作任务后,验证人员需要重新审查整个操作过程的每一步,就像老板要把员工做过的每一个动作都重新检查一遍。这种方式不仅成本高昂,还容易出错。而SmartSnap技术则训练AI智能体成为"自我验证专家",它们在完成任务的同时,会主动收集和整理最关键的证据片段,就像一个优秀的员工不仅把工作做完,还会主动准备一份简洁明了的成果报告。
研究团队在AndroidLab这个包含138个不同任务的手机操作测试平台上验证了这项技术。实验结果令人印象深刻:使用SmartSnap技术的AI智能体在不同规模的语言模型上都取得了显著进步,其中8B参数模型的成功率提升了26.08%,30B参数模型提升了16.66%。更重要的是,这些经过SmartSnap训练的智能体甚至能够在性能上与DeepSeek V3.1和Qwen3-235B这样的大型模型相媲美。
一、解决AI智能体验证的根本难题
要理解SmartSnap技术的革命性意义,我们需要先看看传统的AI智能体验证方式存在什么问题。当前的验证方法主要分为三种类型,就像三种不同的工作检查方式。
第一种是基于规则的验证,类似于工厂流水线上的质检。这种方法需要事先为每个任务设定详细的检查标准,就像给质检员一本厚厚的操作手册,告诉他们每一步应该怎么做、结果应该是什么样子。虽然这种方法准确度很高,但问题在于需要为每种不同的任务都制定专门的规则。当面对成千上万种不同的手机操作任务时,编写这些规则的工作量变得极其庞大,就像要为每一种产品都写一本专门的质检手册一样不现实。
第二种是轨迹回放验证,就像监控录像回放一样。验证人员需要把AI智能体操作手机的整个过程从头到尾重新看一遍,包括每一次点击、每一次滑动、每一个界面跳转。这就好比老板要把员工一整天的工作录像全部看完才能判断工作是否合格。问题是这些录像往往很冗长,包含大量无关紧要的操作步骤,而真正能证明任务完成的关键信息可能只占其中很小一部分。验证人员不仅要花费大量时间,还容易被无关信息干扰而做出错误判断。
第三种方法是使用大型语言模型作为"智能判官"。这就像请一个经验丰富的专家来评判工作成果。虽然这种方法具有很好的通用性,不需要为每个任务单独制定规则,但仍然面临着需要处理冗长操作记录的问题。更严重的是,当信息过多或过于复杂时,即使是最先进的语言模型也可能出现"幻觉",做出错误的判断。
研究团队发现,所有这些传统方法的根本问题在于将任务执行和验证过程完全分离。AI智能体只管完成任务,完全不考虑如何证明自己的工作成果,而验证工作则完全依赖外部系统。这就像一个员工只管埋头干活,从不主动汇报工作进展,导致老板无法及时了解工作状况,只能事后花费大量时间进行检查。
二、SmartSnap的"自我证明"革命
SmartSnap技术的核心创新就是让AI智能体承担起双重责任:不仅要完成任务,还要学会主动提供证据证明任务完成。这就像培训员工不仅要把工作做好,还要学会制作简洁明了的工作报告。
这种方法的巧妙之处在于充分利用了AI智能体的独特优势。当智能体在手机系统内部操作时,它可以实时访问各种界面状态、获取反馈信息,这就像一个在厨房里做饭的厨师,能够随时观察火候、品尝味道、调整调料。相比之下,外部验证系统就像站在厨房外面的人,只能通过最终的成品来判断饭菜是否做得成功。
SmartSnap技术让AI智能体学会了在完成任务的过程中,主动识别和收集那些最能证明任务成功的关键信息片段。比如,当智能体完成"在日历中添加明天下午3点的会议提醒"这个任务时,它不会简单地点击保存就结束,而是会主动截取显示会议已成功添加的界面,确保时间、日期、内容都正确显示,然后将这个截图作为证据提交。
这种方法带来了三个显著优势。首先是效率的大幅提升,验证人员不再需要审查冗长的操作记录,只需要查看智能体精心挑选的关键证据,就像老板不需要看员工的工作录像,只需要看工作成果报告一样。其次是准确性的提高,由于证据更加聚焦和相关,验证系统不容易被无关信息干扰,做出判断的准确率显著提升。最后是成本的降低,无论是时间成本还是计算成本都大大减少。
更重要的是,这种方法创造了一个正向的学习循环。当AI智能体既要完成任务又要提供证据时,它必须对任务有更深入的理解,知道什么才算真正的成功,什么样的证据最有说服力。这就像要求学生不仅要解出数学题,还要写出详细的解题过程,这种要求自然会促使学生对问题有更深刻的理解。
三、3C原则:证据收集的黄金法则
为了确保AI智能体能够收集到高质量的证据,研究团队制定了"3C原则",这是一套指导证据收集的黄金法则,就像摄影师拍照时要遵循的构图原则一样。
第一个C是完整性(Completeness),要求收集的证据必须能够完整地证明任务确实完成。这就像法庭上的证据链条,不能有任何关键环节缺失。比如,如果任务是"安装一个浏览器扩展程序",那么仅仅截取下载完成的界面是不够的,还需要证据显示扩展程序确实已经安装并且可以正常使用。智能体需要学会识别任务的所有关键要素,确保每个要素都有相应的证据支撑。
第二个C是简洁性(Conciseness),要求证据必须精炼,去除所有冗余信息。这个原则背后的逻辑是,太多的信息反而可能干扰判断,就像一个演讲如果包含太多细节,反而可能让听众抓不住重点。研究团队发现,当证据过于冗长时,即使是最先进的验证系统也容易出现判断错误。因此,智能体需要学会从大量的操作记录中提炼出最关键的几个片段,通常控制在1-3个核心证据。
第三个C是创造性(Creativity),这是最具创新性的一个原则。它鼓励AI智能体不仅仅被动地记录已经发生的操作,还要主动创造更好的证据。比如,当智能体完成转账操作后,它可能会主动查看账户余额变化或交易记录,来提供更有说服力的证据。这就像一个优秀的记者不仅报道事件本身,还会主动寻找相关的背景信息和后续影响。
创造性原则特别重要,因为有时候任务的自然完成过程并不能提供理想的证据。比如,当智能体点击"添加扩展程序"按钮后,页面可能会跳转到一个通用的成功页面,这个页面本身并不能明确证明特定的扩展程序已经安装成功。这时,具有创造性的智能体会主动导航到浏览器的扩展程序管理页面,截取显示新安装扩展程序的界面,这样的证据显然更有说服力。
这种创造性不仅提高了证据质量,还促进了智能体对任务的深入理解。当智能体需要主动寻找证据时,它必须理解任务的真正目标和成功标准,而不仅仅是机械地执行操作步骤。这种深度理解反过来也提高了智能体完成任务的成功率。
四、技术架构:从理论到实践的精妙设计
SmartSnap技术的实现涉及多个精心设计的技术组件,就像一个复杂的机械装置,每个部件都有其特定的功能和作用。
在技术框架上,研究团队将整个过程建模为一个增强的马尔可夫决策过程。简单来说,这就是给传统的AI决策系统增加了一个新的能力维度。原来的AI智能体只需要考虑"下一步应该做什么",现在还需要考虑"如何为已经完成的操作收集证据"。这就像给司机不仅要求开车到达目的地,还要求在关键路口拍照记录行驶路线一样。
证据的定义是这个技术框架的核心。研究团队将单个证据定义为一个"原子交互对",包含智能体执行的动作和系统返回的直接反馈。这种定义的巧妙之处在于它确保了证据的客观性和可验证性。每个证据都是"动作-结果"的配对,就像"按下开关-灯亮了"这样的因果关系,而不是智能体的主观描述或总结。
这种设计避免了一个重要问题:如果允许智能体用自然语言描述自己的操作,它可能会有意无意地美化或歪曲事实。比如,智能体可能会说"我成功安装了浏览器扩展",但实际上安装过程可能失败了。通过使用客观的交互记录作为证据,系统确保了验证过程基于事实而非主观声明。
为了训练智能体掌握证据收集技能,研究团队设计了一个多层次的奖励系统。这个系统就像一个综合考评机制,从多个维度评估智能体的表现。首先是证据有效性奖励,当智能体提供与任务相关的证据时给予积极反馈,即使任务最终失败,只要证据能够清楚地证明失败原因,也会获得一定奖励。这鼓励智能体始终关注任务相关的信息。
其次是任务完成奖励,只有当智能体声称成功并且证据确实支持这一声明时才给予。这个奖励的判断标准非常严格,采用"零假设"原则,即验证系统不会为任何不在证据中明确显示的信息进行推理补充。如果证据中没有明确显示某个步骤完成,就假设该步骤没有发生。
还有格式化奖励和简洁性惩罚。格式化奖励确保智能体严格按照要求的格式提交证据,这对系统的稳定运行至关重要。简洁性惩罚则与证据数量成正比,鼓励智能体找到最少但最有效的证据组合。
训练过程采用了Group Relative Policy Optimization(GRPO)算法,这是一种相对较新的强化学习方法。与传统的演员-评论家算法相比,GRPO的优势在于不需要单独训练一个评价网络,而是通过比较同一批次内不同轨迹的表现来计算优势函数。这就像班级里不是每个学生都需要独立的导师,而是通过班级内部的相互比较来评估每个学生的相对表现。这种方法显著降低了训练成本和内存需求。
五、实验验证:在真实场景中的卓越表现
为了验证SmartSnap技术的有效性,研究团队选择了AndroidLab作为测试平台。AndroidLab是一个包含138个不同任务的手机操作环境,涵盖了日历、地图、音乐播放器、联系人、设置等九个不同应用的各种操作场景。这就像是为AI智能体设置了一个综合性的实际工作环境,而不是简化的实验室条件。
在实验设计上,研究团队选择了不同规模和架构的语言模型进行测试,包括LLaMA3.1-8B、Qwen2.5-7B、Qwen3-8B和Qwen3-32B等模型。这种多样化的选择确保了实验结果的普遍适用性,就像在不同类型的汽车上测试新的导航系统,以确保技术的通用性。
实验结果显示,SmartSnap技术在所有测试的模型上都取得了显著的性能提升。最令人印象深刻的是LLaMA3.1-8B模型,其成功率从原来的5.07%提升到31.15%,增幅达到26.08%。这样的提升幅度在AI领域是相当罕见的,就像一个学生的考试成绩从不及格直接跃升到优秀水平。
更重要的是,这种提升不仅体现在整体成功率上,还体现在任务完成的质量上。研究团队通过多个指标来评估智能体的表现,包括子目标成功率、操作合理性和动作冗余度等。结果显示,使用SmartSnap训练的智能体不仅更容易成功完成任务,而且操作过程更加高效、合理。
特别值得注意的是,经过SmartSnap训练的中等规模模型甚至能够达到与大型模型相媲美的性能水平。例如,Qwen3-8B模型在使用SmartSnap技术后达到了36.23%的成功率,这个数字已经非常接近DeepSeek-V3.1(36.23%)和Qwen3-235B-A22B(34.78%)这样的大型模型。这意味着通过巧妙的训练方法,较小的模型也能够达到优秀的性能,这对于实际应用具有重要意义,因为小模型在部署和运行成本上具有显著优势。
实验还揭示了一些有趣的现象。在训练过程中,智能体逐渐学会了提交更少但更有效的证据。平均证据数量从训练初期的2-3个下降到后期的1.5个左右,同时任务成功率却在持续提升。这表明智能体确实掌握了识别关键信息的技能,就像一个经验丰富的摄影师知道在什么时候按下快门捕捉最关键的瞬间。
六、深度分析:学习过程的有趣发现
通过对训练过程的深入分析,研究团队发现了许多有趣的现象,这些发现不仅验证了SmartSnap技术的有效性,还为我们理解AI智能体的学习过程提供了宝贵洞察。
在训练的早期阶段,智能体往往会提交大量证据,就像一个初学者担心遗漏重要信息而过度记录。随着训练的进行,智能体逐渐学会了精准识别最关键的信息片段。这个过程类似于人类专家的成长轨迹:新手往往试图记住所有细节,而专家则能够迅速抓住问题的核心。
更有趣的是,研究团队发现智能体在不同应用领域的学习速度存在显著差异。在一些相对简单的应用如设置和联系人管理上,智能体很快就掌握了有效的证据收集策略。但在更复杂的应用如地图导航和日历管理上,学习过程相对较慢。这反映了不同任务的本质复杂度差异,也暗示了AI智能体在知识迁移方面仍有改进空间。
通过具体案例分析,研究团队展示了智能体学习过程的精彩细节。在一个"记录8000元工资收入"的任务中,训练前的智能体常常会在错误的界面上反复点击,就像一个迷路的人在同一个路口徘徊不前。训练后的智能体不仅能够准确找到正确的操作路径,还学会了主动截取显示正确金额、日期和类别的界面作为证据。更令人惊喜的是,它甚至学会了在完成记录后主动查看交易列表,以提供更加确凿的证据。
在另一个"开启深色主题"的任务中,训练前的智能体经常在网络设置界面中打转,错误地认为当前页面与显示设置有关。经过训练后,智能体学会了使用搜索功能快速定位到正确的设置页面,并且只保留显示深色主题已成功开启的关键截图作为证据。这种行为变化表明智能体不仅提高了任务执行能力,还发展出了更高效的问题解决策略。
研究团队还观察到了一个重要现象:智能体的操作步骤数量在训练过程中逐渐减少,但成功率却在提高。这表明智能体学会了更加高效的操作序列,避免了无效的试错过程。同时,智能体的响应长度也在减少,说明它们学会了更加简洁和聚焦的表达方式。
这些发现揭示了SmartSnap技术的一个重要特性:它不仅改善了任务验证过程,还意外地促进了智能体在任务执行方面的改进。这种协同效应的出现是因为证据收集要求迫使智能体对任务有更深入的理解,而这种理解反过来又提高了执行效率。
七、技术挑战与创新突破
SmartSnap技术的研发过程中遇到了许多技术挑战,研究团队的解决方案展现了巧妙的工程智慧和创新思维。
首要挑战是如何定义"好证据"的标准。起初,研究团队尝试让智能体用自然语言描述自己的操作结果,但很快发现这种方法存在严重问题。智能体可能会夸大或美化自己的表现,就像员工在工作汇报中倾向于突出成绩、淡化问题。为了解决这个问题,研究团队创造性地将证据定义为客观的"动作-反馈"对,确保每个证据都是系统的直接响应,而非智能体的主观解释。
另一个重大挑战是训练数据的准备。传统的智能体训练通常只关注任务完成情况,而SmartSnap需要同时训练任务执行和证据收集两种能力。研究团队开发了一套创新的数据生成流程:首先使用先进的大型模型生成高质量的操作轨迹,然后人工标注关键的证据点,最后通过多轮迭代优化来提升数据质量。这个过程就像培训一支既能执行任务又能记录工作过程的专业团队。
验证系统的设计也充满了技巧。研究团队发现,如果验证标准过于宽松,智能体可能会学会"投机取巧",提交看似相关但实际无效的证据。相反,如果标准过于严格,可能会抑制智能体的学习积极性。为了找到合适的平衡点,团队设计了一个多层次的奖励机制:即使任务失败,只要证据能够清楚地说明失败原因,智能体仍然会获得一定奖励。这种设计鼓励智能体始终保持诚实和准确。
在技术实现层面,研究团队还解决了一个重要的工程问题:如何在保持训练稳定性的同时处理多模态信息。手机操作涉及界面截图、XML结构、文本内容等多种信息形式,传统的训练方法很难有效整合这些异构信息。团队开发了一套统一的信息编码框架,将所有信息转换为结构化的文本表示,这样既保持了信息的完整性,又简化了模型的处理复杂度。
针对不同应用领域的特殊性,研究团队还制定了领域特定的验证规则。比如,在金融应用中,收入应该显示为正数,支出应该显示为负数;在系统设置中,开关状态需要通过视觉元素的变化来判断;在电商应用中,"加入购物车"和"下单购买"是两个不同的操作阶段。这些细致的规则确保了验证过程的准确性和可靠性。
八、实际应用价值与未来展望
SmartSnap技术的价值远远超出了学术研究的范畴,它为AI智能体的实际应用开辟了新的可能性。在当前的技术发展阶段,验证问题是阻碍AI智能体大规模部署的主要障碍之一,而SmartSnap提供了一个切实可行的解决方案。
在企业自动化场景中,SmartSnap技术可以大大降低AI智能体的监管成本。比如,一家公司部署了大量智能体来处理客户服务、订单处理、数据录入等重复性任务。传统方式下,公司需要安排专门的人员来监控和验证这些智能体的工作质量,这不仅增加了人力成本,还可能成为业务流程的瓶颈。使用SmartSnap技术后,智能体可以自动生成工作证明,管理人员只需要快速审查关键证据即可,大大提高了监管效率。
在个人助手应用方面,SmartSnap技术能够显著提升用户体验。当用户要求AI助手完成复杂任务时,比如"帮我预订明天晚上的餐厅并添加到日历中",使用SmartSnap技术的助手不仅会完成任务,还会主动展示预订确认信息和日历条目,让用户一目了然地看到任务完成情况。这种主动的证据展示增强了用户对AI助手的信任度。
在教育和训练领域,SmartSnap技术为AI智能体的能力评估提供了新的思路。传统的评估方法往往只关注最终结果,而忽略了过程中的关键决策点。SmartSnap要求智能体不仅要得到正确答案,还要能够识别和展示推理过程中的关键步骤,这为更全面的能力评估提供了可能。
从技术发展的角度看,SmartSnap代表了AI智能体设计理念的重要转变。传统的智能体设计主要关注如何提高任务执行能力,而SmartSnap引入了"可解释性"和"可验证性"的要求。这种设计理念的转变对未来的AI系统开发具有重要指导意义,特别是在需要高可靠性和可解释性的关键应用领域。
研究团队也坦诚地指出了当前技术的局限性。首先,SmartSnap技术目前主要在移动设备操作场景中得到验证,向其他类型的任务环境扩展还需要进一步的研究和优化。其次,对于某些需要深度领域知识的复杂任务,当前的智能体仍然难以提供完全令人信服的证据。最后,大规模部署SmartSnap技术仍然面临计算资源和工程实现方面的挑战。
展望未来,研究团队计划在几个方向上继续深化这项技术。首先是扩展应用领域,将SmartSnap技术应用到网页浏览、桌面操作、游戏环境等更多场景中。其次是提升智能体的领域适应能力,通过持续学习和知识注入来提高智能体在专业领域的表现。最后是优化工程实现,降低技术部署的门槛和成本,使更多的开发者和企业能够受益于这项技术。
SmartSnap技术的出现标志着AI智能体发展进入了一个新阶段。在这个阶段,智能体不再是简单的任务执行者,而是具备自我反思和证据收集能力的智能助手。这种能力的提升不仅解决了当前的技术瓶颈,也为未来更加智能化和自主化的AI系统奠定了基础。当AI智能体学会了"自我证明",我们离真正可靠的人工智能助手又近了一步。
Q&A
Q1:SmartSnap技术是什么?
A:SmartSnap是腾讯YouTu Lab开发的一项AI技术,它让AI智能体在完成手机操作任务时,不仅要把事情做好,还要主动收集和提交能够证明任务完成的关键证据,就像员工不仅要完成工作,还要主动提交工作成果报告一样。
Q2:SmartSnap技术比传统方法有什么优势?
A:传统验证方法需要人工审查AI智能体的整个操作过程,既耗时又容易出错。SmartSnap让智能体自己挑选最关键的证据片段,验证人员只需查看这些精选证据即可,大大提高了效率和准确性,同时降低了验证成本。
Q3:SmartSnap技术的效果如何?
A:在AndroidLab测试平台上,使用SmartSnap技术的AI智能体性能显著提升,其中8B参数模型成功率提升了26.08%,经过训练的中等规模模型甚至能达到与大型模型相媲美的性能水平。
好文章,需要你的鼓励
openGauss的目标是探索oGRAC和超节点深度融合的可能,打造超节点原生数据库。
清华团队开发DKT模型,利用视频扩散AI技术成功解决透明物体深度估计难题。该研究创建了首个透明物体视频数据集TransPhy3D,通过改造预训练视频生成模型,实现了准确的透明物体深度和法向量估计。在机器人抓取实验中,DKT将成功率提升至73%,为智能系统处理复杂视觉场景开辟新路径。
字节跳动研究团队提出了专家-路由器耦合损失方法,解决混合专家模型中路由器无法准确理解专家能力的问题。该方法通过让每个专家对其代表性任务产生最强响应,同时确保代表性任务在对应专家处获得最佳处理,建立了专家与路由器的紧密联系。实验表明该方法显著提升了从30亿到150亿参数模型的性能,训练开销仅增加0.2%-0.8%,为混合专家模型优化提供了高效实用的解决方案。
上海AI实验室团队开发的Yume1.5是一个革命性的AI视频生成系统,能够从单张图片或文字描述创造无限可探索的虚拟世界。用户可通过键盘控制实时探索,系统8秒内完成生成,响应精度达0.836,远超现有技术。该系统采用创新的时空通道建模和自强制蒸馏技术,支持文本控制的事件生成,为虚拟现实和内容创作领域开辟了新的可能性。