微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

上交大与美团联手：让AI手机助手真正"懂"你的操作意图，而不只是死记硬背

人工智能多模态大语言模型中间训练方法

上交大与美团联手：让AI手机助手真正"懂"你的操作意图，而不只是死记硬背

作者：科技行者

2026-06-03 09:46

分享至：

GUI-CIDER是上海交通大学与美团联合提出的GUI智能体中间训练方法，通过因果知识合成与密度感知样本筛选，让AI手机助手真正理解界面操作逻辑，而非仅仅模仿动作。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-06-03 09:46 • 科技行者

这项由上海交通大学计算机学院与美团联合开展的研究，于2026年5月以预印本形式发布在arXiv平台，论文编号为arXiv:2605.28534。研究团队来自上海交通大学、美团、浙江大学以及香港中文大学，联合探索了如何让AI手机操作助手真正理解界面背后的逻辑，而不仅仅是机械地模仿人类点击动作。

你有没有遇到过这样的场景：你让语音助手帮你"在日程表里添加一个英语学习任务"，结果它对着屏幕上那个显眼的加号按钮愣在那里，完全不知道那个加号意味着什么？这并不是因为AI眼神不好，而是因为它从未真正学过"加号在日程应用里代表新建任务"这件事。它只是一个动作模仿者，而不是一个理解世界的行动者。

正是为了解决这个根本性的问题，上述研究团队提出了一个名叫GUI-CIDER的训练方法。GUI是图形用户界面的缩写，也就是你手机或电脑屏幕上那些按钮、图标和菜单的统称；CIDER则代表了这套方法的两个核心机制：因果内化（Causal Internalization）和密度感知样本重选（Density-aware Exemplar Reselection）。这套方法的目标，是在正式让AI学会"做任务"之前，先给它上一堂"理解世界"的课。

一、AI手机助手的真正瓶颈：不是手笨，而是不懂

要理解为什么这项研究有意义，先得弄清楚现有AI手机助手是怎么被训练出来的。

目前主流的训练方式有两种。第一种叫监督微调，本质上是给AI看大量"任务-操作"配对的例子，让它学会"遇到这类任务就做这些操作"。第二种叫强化学习，是让AI自己去尝试各种操作，成功了就给奖励，失败了就扣分，通过反复试错来提升能力。

这两种方法都有一个共同的问题：AI只是在学"做什么"，而不是在理解"为什么这么做"。打个比方，这就像培训一个新员工，你只告诉他"客户说A就回答B，客户说C就回答D"，却从来没解释过公司的业务逻辑。这个员工背得再熟，遇到一个稍微变化一点的情况就会手足无措。

来自麻省理工学院和其他机构的研究人员已经观察到，随着AI手机助手能力越来越强，真正卡住它们的瓶颈，不再是"操作精准度"，而是对图形界面背后世界知识的缺失。所谓世界知识，就是那些人类习以为常的常识，比如"加号按钮通常用来新建内容"、"下拉状态栏可以看到通知"、"长按图标会出现快捷菜单"等等。

现有的补救方案是搭建多智能体系统：当主AI遇到不懂的情况，就向一个更强大的通用AI发起询问，由后者解释界面元素的含义，再把结果反馈回来。这个方案确实有效，但代价是每次操作都需要额外的网络请求和等待时间，效率很低，更像是给一个不会游泳的人配了一条救生绳，而不是真正教会他游泳。

GUI-CIDER的思路截然不同：在教AI做任务之前，先单独给它上一堂"理解GUI世界"的课，把那些本应是常识的知识，系统地灌输进它的记忆里。这个"上课"的过程，就是所谓的"中间训练"（mid-training），介于基础能力训练和任务特定训练之间，是一种目前在GUI领域鲜有人探索的训练阶段。

二、三步走的知识内化流水线

GUI-CIDER的整个工作流程分为三个阶段，可以用一个厨师学艺的过程来理解：数据合成阶段好比是把食材知识写成食谱，样本重选阶段是从食谱库里筛掉重复低质的内容，中间训练阶段则是让学徒把这些食谱烂熟于心。

**数据合成：把操作录像变成知识教材**

研究团队手头有大量现成的GUI操作轨迹数据，也就是屏幕截图加上对应操作动作的记录序列。这些数据来自三个公开数据集，分别叫AITZ、AndroidControl和GUI-Odyssey，合计包含约十八万条训练样本，覆盖各类Android应用场景。

原始数据的形态是这样的：截图1→点击坐标(532, 865)→截图2→输入文字"learning"→截图3……这些数据对于训练AI"做动作"很有用，但对于理解"为什么这么做"几乎没有帮助。研究团队需要把这些录像式的操作记录，提炼成真正有教育意义的知识文本。

为此，他们设计了两类知识的提取工作。第一类叫静态规划知识，处理的是任务层面的问题：面对"把英语学习任务加入日程"这个目标，一个有经验的人会把它分解成哪些步骤？研究团队用一个强大的语言模型（deepseek-v4-flash）作为专家顾问，让它对每个任务进行零样本推理，生成一份层次化的步骤分解清单。比如"打开日历应用→点击新建按钮→输入任务名称→保存"。这份步骤清单为AI的长期规划提供了密集的监督信号。

第二类叫动态因果知识，处理的是每一步操作背后的逻辑。这里用到了两个子模块。首先是语义行为接地模块：把"点击坐标(532, 865)"这样机器语言，通过查阅界面的视图层级信息，翻译成人话，比如"点击快门按钮"。然后是因果逻辑归纳模块：把操作前后两张截图先转成文字描述（"操作前：屏幕显示相机取景框，底部有快门按钮"；"操作后：照片已保存，相册图标出现了新内容"），再让专家模型从这段文字中提取出三个关键要素，分别是触发因素（是什么让这个操作在此刻发生）、界面机制（界面底层是怎么响应这个操作的）和思维链推理（为什么在当前任务下这个操作是正确的选择）。

最终合成出来的每一条训练样本，是一个完全由文字构成的知识元组，包含任务描述、步骤清单、语义化的操作描述，以及包含操作前后状态、触发因素、机制和推理链的完整因果记录。整个合成过程产出了约一亿个词元（token）的文本语料，这也是研究团队向社区开源的一份宝贵资源。

**样本重选：从一亿词元的语料里淘金**

一亿词元听起来很多，但其中难免混入重复、低质或缺乏推理深度的内容。如果全盘拿去训练，大量相似的低质样本会让AI学会"偷懒走捷径"，反而损害其泛化能力。于是第二阶段的任务是：从这堆原材料里，筛出真正有价值的精华。

筛选的逻辑基于两个维度。第一个维度是因果显著性：一条样本里是否包含充分的因果逻辑推理？研究团队统计每条样本文本中因果逻辑词汇的出现次数，比如"因为"、"所以"、"如果"、"除非"、"由此导致"等，用这个计数来衡量样本的推理丰富程度，经过双曲正切函数的归一化处理，得到一个在零到一之间的因果显著性分数。

第二个维度是语义密度：这条样本在整个语料库的语义空间里，周围有多少相似的邻居？如果一条样本的周边密密麻麻都是语义几乎相同的样本，说明这类内容已经高度冗余，留一两条就够了，其余的可以丢掉。研究团队用嵌入向量来表示每条样本的语义，计算它与K个最近邻居的平均距离，再除以整个语料库的全局平均距离，得到一个相对密度比值，经过归一化后得到密度分数。密度越高，说明周围越拥挤，越冗余。

这两个分数被组合成一个综合留存概率：密度越高，留存概率越低（惩罚冗余）；因果显著性越高，留存概率越高（奖励推理）。更微妙的是，在密度越高的区域，因果显著性带来的额外加分效果越大。这背后的直觉是：在语义高度雷同的一堆样本里，我们尤其应该优先保留那些推理最严密的，让它作为这类知识的代表。

研究团队还从数学上证明了这个留存函数具有四个良好性质：单调地随因果显著性增加而增大、单调地随密度增大而减小、对密度排序的保序性（筛选不会让原本稀疏的样本比稠密样本更容易被丢掉），以及密度-因果协同性（在更稠密区域，因果质量的边际价值更高）。这些性质保证了筛选逻辑的内部一致性。

**中间训练：把知识刻进记忆**

经过筛选的高质量语料，被用于对AI模型进行中间训练。训练方式是最朴素的下一词预测：把每条样本的所有组成部分拼接成一段连续文本，让模型反复学习如何预测下一个词。没有"输入-输出"的区分，整条文本都作为学习对象。

通过这种方式，模型在参数层面上内化了GUI界面的状态转换规律——操作前是什么状态、执行了什么动作、操作后变成了什么状态、为什么会这样变化——而不需要在运行时借助任何外部辅助。这就是所谓的"因果内化"。

三、实验结果：知识确实刻进去了

研究团队在五个基准测试上验证了GUI-CIDER的效果，其中三个测试任务完成能力（AITZ、AndroidControl、GUI-Odyssey），两个测试GUI知识理解能力（MMBench-GUI L1和GUI Knowledge Bench）。

基础模型选用了阿里巴巴的Qwen3-VL-4B-Instruct和Qwen3-VL-8B-Instruct，分别代表参数量为四十亿和八十亿的视觉语言模型。实验包含四组对比：零样本直接使用（没有任何特定训练）、仅使用GUI-CIDER中间训练、仅使用监督微调的后训练，以及先进行GUI-CIDER中间训练再进行监督微调的组合。

在任务完成能力方面，GUI-CIDER带来的提升贯穿所有场景。以步骤成功率这个指标为例，在GUI-Odyssey基准上，8B模型从未训练时的67.86%提升到中间训练后的70.26%，随后在加上监督微调的组合下进一步升至89.65%，相比只做监督微调的88.82%还要高出将近一个百分点。任务成功率（要求任务中每一步都正确才算完成）的提升更为明显，8B组合方案从3.32%升至3.63%，提升幅度接近十个百分点的相对改善。相比于仅使用后训练的基线，加入GUI-CIDER后，各数据集上任务成功率的平均相对提升达到9.70%。

一个特别值得关注的发现是，经过GUI-CIDER中间训练和监督微调的4B模型，在多个指标上超过了仅做监督微调的8B模型。这暗示着一件耐人寻味的事：对于GUI助手来说，真正重要的可能不是模型有多大，而是它掌握了多少关于界面操作的世界知识。知识的深度，有时候比参数的规模更能决定能力的高度。

在GUI知识理解能力方面，结果同样令人印象深刻。MMBench-GUI L1是一个涵盖Windows、MacOS、Linux、iOS、Android和Web六大平台的多选题测试，评估的是模型能否理解界面内容和元素语义。GUI-CIDER训练出的8B模型在所有难度级别（简单、中等、困难）和所有平台上，都以碾压性优势超越了所有对比模型，包括参数量达到七百二十亿的Qwen2.5-VL-72B和同等规模的InternVL3-72B。在简单难度的总体得分上，GUI-CIDER-8B拿到了94.69分，而次优的InternVL3-72B仅有79.15分。要知道，GUI-CIDER-8B的参数量只有对方的九分之一。

在GUI Knowledge Bench这个专门测试GUI领域知识的基准上，GUI-CIDER-8B的总体得分为66.51，与Claude-Sonnet-4.5的66.53几乎持平，而后者是Anthropic公司推出的旗舰级商业大模型。更引人关注的是，在"客观子集"（专门考察模型是否真正理解任务是否完成）这个维度，GUI-CIDER-8B以71.81的得分超越了o3（69.45）和Gemini-2.5-Pro（67.72）这两个当前最顶尖的商业模型。这意味着经过GUI-CIDER训练的小模型，对"任务完成"这件事的理解，比那些大得多的模型更准确。

四、一个关键发现：中间训练的对象必须是"原装"模型

研究团队还做了一个颇为有趣的对比实验，专门探讨一个实践中非常重要的问题：如果一个模型已经被大量GUI任务数据训练过了，再对它进行GUI-CIDER中间训练，效果会怎样？

实验选用了OS-Atlas-pro-7B，这是一个经过大量GUI专项后训练的七十亿参数模型，作为GUI领域的专用模型参与对比。研究团队以20%为单位，逐步增加GUI-CIDER生成数据的用量，分别测试使用20%、40%、60%、80%和100%数据量时，两个基础模型（通用的Qwen3-VL-8B-Instruct和专用的OS-Atlas-pro-7B）的任务成功率变化趋势。

结果形成了两条走势截然相反的曲线。使用通用模型Qwen3-VL-8B-Instruct时，随着数据量的增加，步骤成功率从大约41%持续稳步攀升至48%以上，呈现清晰的上升趋势。而使用专用模型OS-Atlas-pro-7B时，成功率却随着数据量的增加而持续下滑，从大约48%一路跌到42%附近。

为什么会出现这种反转？研究团队给出的解释是：OS-Atlas-pro-7B经过了大量GUI专项后训练，这个过程在提升任务执行能力的同时，也已经在一定程度上破坏了模型原有的语言表示空间结构。当你试图向一个已经被高度定制化训练的模型灌输新的文本形式的世界知识时，它的语言理解能力已经不够完好，无法有效吸收这些知识。

这个发现确立了一个清晰的训练范式建议：应当先对通用基础模型进行GUI-CIDER中间训练，让其充分内化GUI世界知识，再进行GUI任务的专项后训练，而不是反过来。顺序很重要——先学懂，再学会做。

五、消融实验：少了样本筛选会怎样

研究团队还做了一组消融实验，专门检验第二阶段的样本重选到底有多必要。实验在GUI-Odyssey数据集上进行，对比了完整流程（包含样本重选）与省去样本重选直接用全量合成数据训练的效果。

结果非常明显：去掉样本重选后，4B模型的步骤成功率从43.45%降至41.06%，8B模型从48.55%降至42.34%，后者下降了超过六个百分点。

这个结果背后的逻辑并不难理解：大规模的未经筛选的合成数据里，包含大量语义重复或推理贫乏的样本。当这些样本被大量注入训练过程，AI学到的不是深刻的推理模式，而是表面的统计规律。这会导致它在面对新情况时倾向于走捷径，而不是真正分析每个操作的逻辑。样本重选阶段，正是在保证知识多样性和推理深度的同时，过滤掉这些有害的噪音。

说到底，GUI-CIDER这项研究提供的不仅是一个新的训练方法，更是一种关于"如何让AI真正学习"的思考方式。现有的大多数AI训练方法，都是在教AI"背答案"，而GUI-CIDER的核心主张是：在背答案之前，先教它"理解题目"。通过把GUI操作轨迹里隐含的因果逻辑显式地提炼出来，再系统地教给AI，它就不再只是一个动作模仿机器，而是一个真正懂得"为什么这么做"的助手。

这对普通用户意味着，未来的手机AI助手在遇到它从未见过的新应用、新界面时，也许能凭借对界面逻辑的理解，做出正确的判断，而不是在加号按钮面前茫然无措。当然，目前研究团队因为算力限制，只训练了四十亿到八十亿参数规模的模型，且使用的是LoRA这种轻量微调方式，而非全参数调整。更大规模模型和全参数训练下的效果，还有待进一步探索。感兴趣的读者可以通过arXiv:2605.28534查阅完整论文，研究团队也已将相关代码和数据开源。

---

Q&A

Q1：GUI-CIDER与普通的监督微调（SFT）有什么区别？

A：普通监督微调是让AI直接学"遇到什么任务做什么操作"，AI只是在记忆动作序列，并不理解操作背后的逻辑。GUI-CIDER是在监督微调之前，先通过中间训练阶段，把GUI界面操作的因果逻辑、状态转换规律等世界知识系统地教给AI，让AI先"理解"界面再"执行"操作，两者目的和阶段都不同。

Q2：GUI-CIDER为什么不能对已经专项训练过的GUI模型使用？

A：经过大量GUI专项后训练的模型，其原有的语言表示空间结构已被高度定制化训练所破坏，语言理解能力下降，无法有效吸收以文本形式呈现的新知识。实验显示，对专用模型OS-Atlas-pro-7B使用GUI-CIDER，任务成功率随数据量增加反而持续下滑，而对通用模型则持续提升。

Q3：GUI Knowledge Bench测试里GUI-CIDER-8B为什么能超过规模更大的商业模型？

A：GUI Knowledge Bench的客观子集专门考察模型对"任务是否真正完成"的理解能力。GUI-CIDER通过中间训练将界面操作的因果链、状态变化机制显式地注入了模型记忆，使其对GUI操作的目标-效果关系有更深入的理解，而大型通用商业模型缺乏这类专项知识的系统训练，因此在这一维度上反而不如经过GUI-CIDER训练的8B小模型。

人工智能多模态大语言模型中间训练方法

分享至