微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

当AI助手"只会背课文"：北京大学等机构揭示视觉智能体的致命盲区

多模态智能体视觉技能GUI定位

当AI助手"只会背课文"：北京大学等机构揭示视觉智能体的致命盲区

作者：科技行者

2026-06-08 14:34

分享至：

北京大学等机构发现AI智能体长期用纯文字存储视觉经验，导致界面操作和物体计数等任务性能严重受损，并提出了结合视觉先验的多模态技能范式加以解决。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-06-08 14:34 • 科技行者

这项由北京大学、威斯康星大学麦迪逊分校和MIT-IBM沃森人工智能实验室联合开展的研究，以预印本形式发表于2026年5月31日，论文编号为arXiv:2606.01414，感兴趣的读者可通过该编号查阅完整原文。

**一道绕不开的坎：AI助手为什么会"知道该干什么"却"不知道在哪里干"**

假设你雇了一位新助手，他背熟了所有操作手册，能够流利地说出"打开设置菜单，找到无线局域网选项，点击进入"——但当你把手机递给他，他盯着屏幕半天，愣是找不到那个按钮在哪儿。手册上写的是"找到那个图标"，可图标究竟有多大、周围有没有其他容易点错的按钮、真正可以触碰的区域是整个图标还是图标中心那个小符号，这些全都没有写。于是，这位助手读了再多的说明书，也还是会在实际操作时频频出错。

这个困境，正是当前几乎所有AI智能体系统都在面临的真实处境。北京大学等机构的研究团队将这个问题命名为"文字瓶颈"，并提出了一套名为"视觉技能（Visual Skill）"的解决方案，同时开发了一个能自动生成这类视觉技能的系统"AutoVisualSkill"。

**一、背景：AI助手是怎么"学会"做事的**

为了理解这个问题的根源，先退一步看看AI智能体是如何积累经验的。当前主流的做法，是把AI完成任务的过程记录下来，提炼成一段文字说明，比如"先点击右上角的设置图标，再滚动到第三个选项，然后点击确认"。这段文字被称为"技能（Skill）"，之后每次遇到类似任务，AI就把这段说明拿出来参考，照着做。

这种做法对于那些天然适合用文字描述的任务效果很好。比如编写程序代码、查询数据库、做逻辑推理——这些事情本来就是由符号和语言构成的，用文字来记录和复用经验完全合理。

然而，当任务变成"在手机屏幕上找到并点击某个控件"、"数清楚照片里有多少只鸟"、"根据设计稿核对网页布局是否正确"，情况就完全不同了。这些任务的核心知识不在于"做什么"，而在于"在哪里看"、"看到什么算对"、"怎么验证结果"——而这些知识，天然地存在于视觉空间中，用文字描述不仅费力，还容易丢失关键信息。

研究团队把这种情况类比为：把一张详细的地图强行翻译成一段文字描述路线。你可以写"向北走两个路口，右转，再走三百米"，但这段话永远无法完整还原地图上那些空间关系、地标位置和转弯时视野里的参照物。压缩本身，就意味着损失。

**二、两种典型的失败模式**

研究团队在大量实验中观察到，"只有文字技能、没有视觉支撑"的AI助手会陷入两类典型困境，就像两种截然不同的迷路方式。

第一种困境叫做"静态协议模糊"。简单来说，很多视觉操作依赖于一些约定俗成的空间规则，这些规则在人类界面设计中几乎处处存在，却极难用文字说清楚。以点击按钮为例：你以为要点的是图标上那个小符号，但实际上可点击的区域比符号大得多，包括图标四周的留白都算在内。文字技能可以说"点击搜索图标"，但它无法告诉AI那个可以触碰的区域到底有多大，也无法说明当旁边有三个紧挨着的小图标时该如何精确定位。更关键的是，即便在文字技能里加上越来越多的补充说明，也只会让AI的推理负担越来越重，并不能真正解决空间识别的问题。

第二种困境叫做"动态跟踪崩溃"。这种问题出现在需要持续记录"已经处理过哪些"的任务中。数一张照片里有多少朵花，这件事对人来说很自然——你会用手指一朵一朵地点过去，或者在心里给数过的花"打勾"。但AI用文字来记录这个过程，只能写"坐标(120, 340)处有一朵，坐标(280, 190)处有一朵……"。当花很密集的时候，这串坐标数字毫无直觉可言，AI很容易重复数同一朵，或者漏掉某个区域，不是因为它不知道规则，而是因为文字本身就不是记录空间位置状态的好媒介。

这两种困境虽然表现不同，但根源一致：文字技能没有把视觉结构作为可复用的知识保存下来。

**三、视觉技能：给AI助手配上"地图"和"标记笔"**

为了解决这个问题，研究团队提出了"视觉技能"这一全新的技能范式。如果说传统的文字技能是一本操作手册，那么视觉技能就是在这本手册的基础上，同时附上了一套可复用的视觉参考资料——就像给手册配上了注解图、区域标注和操作示意图。

视觉技能由三个部分组合而成。第一部分是"声明性文字逻辑"，也就是原有的文字说明，负责描述任务目标、执行步骤和各种边界情况，这部分继续发挥文字在抽象推理方面的优势。第二部分是"可复用视觉支持"，负责保存那些文字难以描述的空间结构和视觉规律。第三部分是"多模态绑定协议"，负责规定什么时候应该参考视觉支持、怎么把视觉信息和文字逻辑结合起来用。

在视觉支持这个核心部分，研究团队又区分出三种不同的形式，对应三种不同类型的任务需求。

第一种叫"静态先验"，适用于那些在不同任务实例中保持稳定的空间规律。以手机界面为例，不管是哪款应用，图标的可点击区域总是比图标符号本身稍大一圈，这是一条通用的视觉约定。研究团队为此制作了一张示意图：图上用绿点标注了真正的点击中心，周围用线框标出了完整的可触碰范围，旁边还展示了密集排列的图标群和嵌套的容器控件。这张图不包含任何具体的答案或坐标，只是把这条空间规律视觉化地固定下来，供AI在处理各种不同界面时参照。类似地，在表格中定位某个单元格，需要用横向行带和纵向列带的交叉来确定位置；在柱状图中读取数值，需要从柱子顶端水平投影到纵轴——这些都可以制作成静态的视觉参考图，一次制作、反复复用。

第二种叫"动态先验"，适用于需要持续追踪中间状态的任务。还是以数花为例：使用动态先验时，AI每数到一朵花，就在图片上对应位置标注一个编号绿点，然后把标注了绿点的图片作为"更新后的工作状态"传回给自己看。下一轮处理时，AI看到的不再是一张空白的原图，而是一张已经标记了哪些位置被数过的图。这就把原本藏在"隐形记忆"里的计数状态，变成了一种可见的、可审查的视觉工作记忆。就像你在一张地图上用笔画出已经走过的路线，而不是靠脑子死记硬背。这种方法同样适用于迷宫路径追踪、几何证明中的辅助线绘制、奇异物品搜索中已排查项目的标记等。

第三种叫"交错视觉技能"，适用于那些推理步骤必须紧贴着具体视觉证据来进行的任务。比如讲解一个数学证明，每一个推导步骤都应该紧挨着对应的图示；比如软件操作文档，每一步说明都应该配上对应的截图。这种形式不是一张单独的参考图，而是一个"步骤与证据交织"的结构，确保推理语言始终锚定在可见的视觉来源上，不会变成飘在空中的抽象描述。

**四、绑定协议：让文字和图像协同工作**

视觉技能的三个部分并不是简单地堆在一起，它们的协同需要一套明确的调度规则，也就是"多模态绑定协议"。这套协议的工作方式类似一个调度员：在AI执行任务的每一个推理步骤中，调度员判断这一步是否需要视觉支持，如果需要，再判断这一步依赖的是稳定的空间约定（调取静态先验）、还是需要实时追踪当前状态（初始化动态先验并持续更新）、还是需要紧靠着具体的视觉证据来推理（绑定交错参考帧）。

这套协议还有一个重要的防混淆机制：它明确规定了静态参考图不能被当成任务本身的答案图来用——那张示意图是用来理解"规则长什么样"的，不是用来直接抄坐标的。这个区分对保证视觉技能的通用性至关重要。

**五、AutoVisualSkill：自动把经验变成可复用的视觉技能**

提出了视觉技能的概念之后，研究团队还需要解决一个实际问题：这些技能怎么来？总不能每次都靠人工手绘参考图和编写说明吧。为此，他们开发了AutoVisualSkill这一自动化系统，专门负责把任务经验转化为规范的视觉技能制品。

AutoVisualSkill的工作流程可以理解为一个四步的"经验提炼工厂"。第一步是解析输入：系统接收用户的任务目标和可选的参考材料，这些材料可以是文字、图片、视频帧，甚至是网页链接，系统将其统一整理为可处理的格式，同时提取任务约束和候选的视觉规律。

第二步是一个关键的"视觉瓶颈诊断门"：系统自动判断这个任务是否需要视觉支持，以及需要哪种类型的支持。判断标准包括：任务是否需要空间定位、是否涉及几何结构、是否需要持续跟踪、是否需要视觉证据支撑推理。同时，系统还会检查候选的视觉支持是否真的编码了跨实例通用的规律，而不只是某个具体任务的截图缓存——这一点直接决定了最终技能的可复用性。

第三步是双轨并行生成：一条轨道负责撰写文字逻辑，另一条轨道负责生成视觉资产。视觉资产的来源可以是从输入材料中提取的区域、从网络检索补充的约定图示、用程序代码渲染的示意图，或者通过生成式视觉模型创建的图像。

第四步是打包成规范的技能制品：每个技能都生成一个包含完整说明的文档（skill.md）、一个记录图像元数据和绑定规则的清单（manifest.json），以及对应的视觉资产图像文件夹。这个制品可以被AI系统直接加载，也可以被人类查阅和修改，还可以像代码一样进行版本管理。

**六、实验验证：数字说明了什么**

为了把"文字瓶颈"从一个定性描述变成可以量化的指标，研究团队设计了一个叫做"文字降解率（TDR）"的测量方法：用视觉技能的性能减去文字技能的性能，得到的差值就代表了"因为只用文字记录知识而损失的那部分性能"。这个数字越大，说明这个任务越不适合用纯文字技能来处理。

研究团队选择了两个典型任务来做受控实验，每个任务对应一种视觉瓶颈类型。

针对静态先验，他们选择了"GUI定位"任务：给AI看一张手机或电脑界面的截图，让它找到特定按钮并标出点击位置。实验在ScreenSpot、ScreenSpot-v2和GroundUI-18K三个标准测试集上进行，使用的AI模型是当时性能很强的Qwen3-VL-32B-Thinking。评估指标包括"点击落入正确区域的比例"、"预测区域与正确区域的重叠度"以及"预测中心点与正确中心点的距离"。

结果显示，在不使用任何技能的情况下，三个测试集上的平均点击准确率分别为87.3%、91.7%和67.0%。加上文字技能后，略有提升，变为90.1%、92.3%和68.6%。而加上视觉技能（含静态先验图）之后，进一步跃升至93.0%、95.1%和71.3%。重叠度（IoU）指标的提升幅度更为显著：文字技能相比无技能提升了约4个百分点，而视觉技能在文字技能基础上又额外提升了约5个百分点。这意味着，视觉技能对于那些需要精确定位边界的指标，带来的增益比对点击准确率本身还要大——这正好印证了"界面操作的核心困难在于边界精度，而不是找到大致位置"这一判断。综合三个测试集，文字降解率的归一化值在17.1%到9.2%之间，说明有接近一到两成的可挽回性能被纯文字技能白白放弃了。

针对动态先验，他们选择了"密集物体计数"任务：给AI看一张照片，让它数出某类物体的数量。实验在CountBenchQA测试集上进行，使用的AI模型是Gemini-2.5-Pro。评估指标包括"精确命中率"（预测数量与真实数量完全一致的比例）、"平均绝对误差"和"误差在1以内的比例"。

这里出现了一个颇为微妙的结果：加上文字技能之后，精确命中率从94.24%下降到了93.00%，平均误差也从0.1317上升到了0.1612。也就是说，给AI更多的文字指令，反而让它数得更不准了。研究团队分析认为，这是因为额外的文字说明引入了更多的推理负担，却没有给空间跟踪提供任何实质性的帮助。而加上视觉技能（含动态先验）之后，精确命中率大幅提升到了97.12%，平均误差骤降到0.0535，降幅约为60%。这个结果在统计上高度显著（p=0.003），不是偶然现象。归一化文字降解率高达58.9%（精确准确率维度）、72.2%（误差1以内准确率维度）和66.8%（平均误差维度），说明对于计数这类任务，纯文字技能放弃了约六到七成的可挽回性能。

**七、视觉技能不是万能药：失败案例同样值得关注**

研究团队并没有只展示成功的案例，他们同样认真分析了视觉技能失效的情况。

在GUI定位任务中，视觉技能有时会"过度执行"空间约定。比如指令是"播放火星视频"，静态先验告诉AI要点击最小的功能性图标，于是AI把注意力锁定在播放按钮最中心的那个三角符号上，而不是整个播放控件区域，结果IoU得分从无技能的0.93和文字技能的0.56，骤降到了0.06。还有"关闭图片窗口"这个指令，视觉技能把点击区域标注得比正确位置偏上，导致精度下降。这类失败的共同原因是：静态先验编码的空间约定与当前任务的语义意图产生了冲突——先验认为"要点小图标"，但有些情况下应该点的是包含这个图标的整个容器。

在计数任务中，动态先验会强迫AI明确"什么算一个独立个体"，而这个问题有时候本身就是模糊的。一盏壁灯算一个还是两个（底座加灯罩）？一套耳机算一个还是两个（两个耳罩）？当AI被要求给每个"有效实例"标注一个锚点时，它必须做出明确决策，于是原本被模糊感知"pass"掉的歧义问题就暴露出来了。这类失败提示未来的改进方向：视觉技能系统需要更好地协调"语义范围的文字定义"和"空间分割的视觉操作"之间的张力。

**八、视觉技能与少样本提示：两种不同的逻辑**

看到这里，很多人可能会有一个自然的疑问：在提示词里直接给几张参考图片，效果不是一样吗？研究团队专门区分了这两种做法的本质差异。

给AI看几张参考图片，这叫"少样本提示"，本质上是"实例级"的：你给的是几个具体的输入-输出配对案例，AI从中模仿局部模式。这种方法每次用完就丢，不会留下任何可以持续复用的东西，也没有办法被版本管理或跨任务共享。

而视觉技能是"协议级"的：它不包含任何具体任务的答案，只编码了跨任务实例共享的空间规律和操作约定。它可以被存储、检索、修改和复用，就像一份专业技能证书，而不是一次性的做题参考。这个区别对于需要长期积累能力的AI智能体系统来说至关重要。

**九、什么时候该用视觉技能，什么时候不该用**

研究团队还明确划定了视觉技能的适用边界，避免"为了用而用"。

对于纯符号性的任务，比如代数运算、SQL语句生成、代码合成，可复用的知识天然就是离散的、程序化的、语言性的，没有必要强加视觉支持。对于无结构的开放式视觉感知，比如对自然场景的自由问答，强加一套刚性的空间图式反而可能约束AI的视觉推理。

视觉技能应当被调用的信号是：任务的瓶颈在于空间结构或感知追踪——也就是说，当可复用的知识里有内在的视觉结构，而且这种结构确实难以用文字准确表达时，才值得配备视觉技能。

此外，研究团队还总结了有效视觉先验的三条设计原则。第一，视觉先验应当是抽象的、跨实例通用的，而不是某个具体任务的截图或答案图。第二，视觉先验中应当包含那些确实难以线性文字化的东西，比如形状、位置、边界和空间流程；如果一张图只是把文字说明换了个字体展示出来，那它提供的价值并不比文字本身更多。第三，文字里已经说清楚的信息就留在文字里，视觉先验只应当承担那些文字确实难以表达的空间结构。

**说到底，这项研究在告诉我们什么**

归根结底，这项工作揭示的是一个长期被忽视的不对称性：多模态AI系统可以"看见"图像，但它们"记住"经验的方式，却一直停留在纯文字的层面。这个不对称性，就像一位在照片里看过无数次某地风景的导游，却从来没有拥有过一张地图——他知道那个地方很美，知道有个湖，有棵大树，但当你真的问他"从停车场走到湖边要怎么走"，他只能一脸茫然。

研究团队用严格的实验数据证明，这个不对称性不只是理论上的缺陷，而是有真实、可量化的性能损失。对于手机和电脑界面操作这类任务，文字技能放弃了大约一成的可挽回性能；对于密集物体计数这类任务，这个数字更是高达六到七成。

更有意思的是，简单地给AI更多的文字指令，不仅不能弥补这个损失，有时反而会帮倒忙——就像在手册里堆砌越来越多的文字描述，却没有一张配图，只会让读手册的人越来越困惑。

更强的AI模型未来可能会缩小这个差距，但研究团队认为，这不会从根本上消除视觉结构作为可复用知识的价值。当知识本身是空间性的，最好的保存方式就是空间性的，这不是模型能力强弱的问题，而是信息存储形式与信息本质的匹配问题。这项研究真正传递的核心思路是：AI智能体的技能库不应该只有文字，而应该是真正意义上的多模态资产。

有兴趣深入了解的读者，可以通过arXiv编号2606.01414查阅完整原文，或访问论文配套的GitHub项目（Little-Fridge/AutoVisualSkill）体验AutoVisualSkill系统的实际效果。

---

Q&A

Q1：视觉技能和直接给AI看几张参考图片有什么区别？

A：视觉技能是"协议级"的，它编码的是跨任务通用的空间规律，不包含任何具体答案，可以持续复用、版本管理和跨任务共享。而给AI看几张参考图片是"实例级"的少样本提示，只是提供具体的输入输出配对案例，每次用完即弃，本质上是临时性的上下文，并不能沉淀成可复用的技能资产。

Q2：AutoVisualSkill生成的视觉技能是不是只对特定AI模型有效？

A：并不是。研究团队在实验中有意选择了两个不同的强基础模型（Qwen3-VL-32B-Thinking用于界面操作，Gemini-2.5-Pro用于计数），目的就是验证视觉技能在不同模型上是否都有效。结果表明，无论基础模型本身有多强，加上视觉技能后都能进一步提升，说明视觉技能的价值不依赖于特定模型架构。

Q3：动态先验是怎么让AI数数变得更准确的？

A：动态先验的核心机制是"把中间状态写回图像"。AI每数到一个目标，就在图像上标记一个编号锚点，然后把标记了锚点的图像传回给自己看，以此作为下一步的输入。这样一来，"已经数过哪些"就不再是需要靠AI内部记忆维持的隐藏状态，而变成了图像上可见的标记，AI可以直接"看见"已经处理过的区域，大幅减少重复计数和遗漏的概率。

多模态智能体视觉技能GUI定位

分享至