
这项由北京大学、威斯康星大学麦迪逊分校和MIT-IBM沃森人工智能实验室联合开展的研究,以预印本形式发表于2026年5月31日,论文编号为arXiv:2606.01414,感兴趣的读者可通过该编号查阅完整原文。
**一道绕不开的坎:AI助手为什么会"知道该干什么"却"不知道在哪里干"**
假设你雇了一位新助手,他背熟了所有操作手册,能够流利地说出"打开设置菜单,找到无线局域网选项,点击进入"——但当你把手机递给他,他盯着屏幕半天,愣是找不到那个按钮在哪儿。手册上写的是"找到那个图标",可图标究竟有多大、周围有没有其他容易点错的按钮、真正可以触碰的区域是整个图标还是图标中心那个小符号,这些全都没有写。于是,这位助手读了再多的说明书,也还是会在实际操作时频频出错。
这个困境,正是当前几乎所有AI智能体系统都在面临的真实处境。北京大学等机构的研究团队将这个问题命名为"文字瓶颈",并提出了一套名为"视觉技能(Visual Skill)"的解决方案,同时开发了一个能自动生成这类视觉技能的系统"AutoVisualSkill"。
**一、背景:AI助手是怎么"学会"做事的**
为了理解这个问题的根源,先退一步看看AI智能体是如何积累经验的。当前主流的做法,是把AI完成任务的过程记录下来,提炼成一段文字说明,比如"先点击右上角的设置图标,再滚动到第三个选项,然后点击确认"。这段文字被称为"技能(Skill)",之后每次遇到类似任务,AI就把这段说明拿出来参考,照着做。
这种做法对于那些天然适合用文字描述的任务效果很好。比如编写程序代码、查询数据库、做逻辑推理——这些事情本来就是由符号和语言构成的,用文字来记录和复用经验完全合理。
然而,当任务变成"在手机屏幕上找到并点击某个控件"、"数清楚照片里有多少只鸟"、"根据设计稿核对网页布局是否正确",情况就完全不同了。这些任务的核心知识不在于"做什么",而在于"在哪里看"、"看到什么算对"、"怎么验证结果"——而这些知识,天然地存在于视觉空间中,用文字描述不仅费力,还容易丢失关键信息。
研究团队把这种情况类比为:把一张详细的地图强行翻译成一段文字描述路线。你可以写"向北走两个路口,右转,再走三百米",但这段话永远无法完整还原地图上那些空间关系、地标位置和转弯时视野里的参照物。压缩本身,就意味着损失。
**二、两种典型的失败模式**
研究团队在大量实验中观察到,"只有文字技能、没有视觉支撑"的AI助手会陷入两类典型困境,就像两种截然不同的迷路方式。
第一种困境叫做"静态协议模糊"。简单来说,很多视觉操作依赖于一些约定俗成的空间规则,这些规则在人类界面设计中几乎处处存在,却极难用文字说清楚。以点击按钮为例:你以为要点的是图标上那个小符号,但实际上可点击的区域比符号大得多,包括图标四周的留白都算在内。文字技能可以说"点击搜索图标",但它无法告诉AI那个可以触碰的区域到底有多大,也无法说明当旁边有三个紧挨着的小图标时该如何精确定位。更关键的是,即便在文字技能里加上越来越多的补充说明,也只会让AI的推理负担越来越重,并不能真正解决空间识别的问题。
第二种困境叫做"动态跟踪崩溃"。这种问题出现在需要持续记录"已经处理过哪些"的任务中。数一张照片里有多少朵花,这件事对人来说很自然——你会用手指一朵一朵地点过去,或者在心里给数过的花"打勾"。但AI用文字来记录这个过程,只能写"坐标(120, 340)处有一朵,坐标(280, 190)处有一朵……"。当花很密集的时候,这串坐标数字毫无直觉可言,AI很容易重复数同一朵,或者漏掉某个区域,不是因为它不知道规则,而是因为文字本身就不是记录空间位置状态的好媒介。
这两种困境虽然表现不同,但根源一致:文字技能没有把视觉结构作为可复用的知识保存下来。
**三、视觉技能:给AI助手配上"地图"和"标记笔"**
为了解决这个问题,研究团队提出了"视觉技能"这一全新的技能范式。如果说传统的文字技能是一本操作手册,那么视觉技能就是在这本手册的基础上,同时附上了一套可复用的视觉参考资料——就像给手册配上了注解图、区域标注和操作示意图。
视觉技能由三个部分组合而成。第一部分是"声明性文字逻辑",也就是原有的文字说明,负责描述任务目标、执行步骤和各种边界情况,这部分继续发挥文字在抽象推理方面的优势。第二部分是"可复用视觉支持",负责保存那些文字难以描述的空间结构和视觉规律。第三部分是"多模态绑定协议",负责规定什么时候应该参考视觉支持、怎么把视觉信息和文字逻辑结合起来用。
在视觉支持这个核心部分,研究团队又区分出三种不同的形式,对应三种不同类型的任务需求。
第一种叫"静态先验",适用于那些在不同任务实例中保持稳定的空间规律。以手机界面为例,不管是哪款应用,图标的可点击区域总是比图标符号本身稍大一圈,这是一条通用的视觉约定。研究团队为此制作了一张示意图:图上用绿点标注了真正的点击中心,周围用线框标出了完整的可触碰范围,旁边还展示了密集排列的图标群和嵌套的容器控件。这张图不包含任何具体的答案或坐标,只是把这条空间规律视觉化地固定下来,供AI在处理各种不同界面时参照。类似地,在表格中定位某个单元格,需要用横向行带和纵向列带的交叉来确定位置;在柱状图中读取数值,需要从柱子顶端水平投影到纵轴——这些都可以制作成静态的视觉参考图,一次制作、反复复用。
第二种叫"动态先验",适用于需要持续追踪中间状态的任务。还是以数花为例:使用动态先验时,AI每数到一朵花,就在图片上对应位置标注一个编号绿点,然后把标注了绿点的图片作为"更新后的工作状态"传回给自己看。下一轮处理时,AI看到的不再是一张空白的原图,而是一张已经标记了哪些位置被数过的图。这就把原本藏在"隐形记忆"里的计数状态,变成了一种可见的、可审查的视觉工作记忆。就像你在一张地图上用笔画出已经走过的路线,而不是靠脑子死记硬背。这种方法同样适用于迷宫路径追踪、几何证明中的辅助线绘制、奇异物品搜索中已排查项目的标记等。
第三种叫"交错视觉技能",适用于那些推理步骤必须紧贴着具体视觉证据来进行的任务。比如讲解一个数学证明,每一个推导步骤都应该紧挨着对应的图示;比如软件操作文档,每一步说明都应该配上对应的截图。这种形式不是一张单独的参考图,而是一个"步骤与证据交织"的结构,确保推理语言始终锚定在可见的视觉来源上,不会变成飘在空中的抽象描述。
**四、绑定协议:让文字和图像协同工作**
视觉技能的三个部分并不是简单地堆在一起,它们的协同需要一套明确的调度规则,也就是"多模态绑定协议"。这套协议的工作方式类似一个调度员:在AI执行任务的每一个推理步骤中,调度员判断这一步是否需要视觉支持,如果需要,再判断这一步依赖的是稳定的空间约定(调取静态先验)、还是需要实时追踪当前状态(初始化动态先验并持续更新)、还是需要紧靠着具体的视觉证据来推理(绑定交错参考帧)。
这套协议还有一个重要的防混淆机制:它明确规定了静态参考图不能被当成任务本身的答案图来用——那张示意图是用来理解"规则长什么样"的,不是用来直接抄坐标的。这个区分对保证视觉技能的通用性至关重要。
**五、AutoVisualSkill:自动把经验变成可复用的视觉技能**
提出了视觉技能的概念之后,研究团队还需要解决一个实际问题:这些技能怎么来?总不能每次都靠人工手绘参考图和编写说明吧。为此,他们开发了AutoVisualSkill这一自动化系统,专门负责把任务经验转化为规范的视觉技能制品。
AutoVisualSkill的工作流程可以理解为一个四步的"经验提炼工厂"。第一步是解析输入:系统接收用户的任务目标和可选的参考材料,这些材料可以是文字、图片、视频帧,甚至是网页链接,系统将其统一整理为可处理的格式,同时提取任务约束和候选的视觉规律。
第二步是一个关键的"视觉瓶颈诊断门":系统自动判断这个任务是否需要视觉支持,以及需要哪种类型的支持。判断标准包括:任务是否需要空间定位、是否涉及几何结构、是否需要持续跟踪、是否需要视觉证据支撑推理。同时,系统还会检查候选的视觉支持是否真的编码了跨实例通用的规律,而不只是某个具体任务的截图缓存——这一点直接决定了最终技能的可复用性。
第三步是双轨并行生成:一条轨道负责撰写文字逻辑,另一条轨道负责生成视觉资产。视觉资产的来源可以是从输入材料中提取的区域、从网络检索补充的约定图示、用程序代码渲染的示意图,或者通过生成式视觉模型创建的图像。
第四步是打包成规范的技能制品:每个技能都生成一个包含完整说明的文档(skill.md)、一个记录图像元数据和绑定规则的清单(manifest.json),以及对应的视觉资产图像文件夹。这个制品可以被AI系统直接加载,也可以被人类查阅和修改,还可以像代码一样进行版本管理。
**六、实验验证:数字说明了什么**
为了把"文字瓶颈"从一个定性描述变成可以量化的指标,研究团队设计了一个叫做"文字降解率(TDR)"的测量方法:用视觉技能的性能减去文字技能的性能,得到的差值就代表了"因为只用文字记录知识而损失的那部分性能"。这个数字越大,说明这个任务越不适合用纯文字技能来处理。
研究团队选择了两个典型任务来做受控实验,每个任务对应一种视觉瓶颈类型。
针对静态先验,他们选择了"GUI定位"任务:给AI看一张手机或电脑界面的截图,让它找到特定按钮并标出点击位置。实验在ScreenSpot、ScreenSpot-v2和GroundUI-18K三个标准测试集上进行,使用的AI模型是当时性能很强的Qwen3-VL-32B-Thinking。评估指标包括"点击落入正确区域的比例"、"预测区域与正确区域的重叠度"以及"预测中心点与正确中心点的距离"。
结果显示,在不使用任何技能的情况下,三个测试集上的平均点击准确率分别为87.3%、91.7%和67.0%。加上文字技能后,略有提升,变为90.1%、92.3%和68.6%。而加上视觉技能(含静态先验图)之后,进一步跃升至93.0%、95.1%和71.3%。重叠度(IoU)指标的提升幅度更为显著:文字技能相比无技能提升了约4个百分点,而视觉技能在文字技能基础上又额外提升了约5个百分点。这意味着,视觉技能对于那些需要精确定位边界的指标,带来的增益比对点击准确率本身还要大——这正好印证了"界面操作的核心困难在于边界精度,而不是找到大致位置"这一判断。综合三个测试集,文字降解率的归一化值在17.1%到9.2%之间,说明有接近一到两成的可挽回性能被纯文字技能白白放弃了。
针对动态先验,他们选择了"密集物体计数"任务:给AI看一张照片,让它数出某类物体的数量。实验在CountBenchQA测试集上进行,使用的AI模型是Gemini-2.5-Pro。评估指标包括"精确命中率"(预测数量与真实数量完全一致的比例)、"平均绝对误差"和"误差在1以内的比例"。
这里出现了一个颇为微妙的结果:加上文字技能之后,精确命中率从94.24%下降到了93.00%,平均误差也从0.1317上升到了0.1612。也就是说,给AI更多的文字指令,反而让它数得更不准了。研究团队分析认为,这是因为额外的文字说明引入了更多的推理负担,却没有给空间跟踪提供任何实质性的帮助。而加上视觉技能(含动态先验)之后,精确命中率大幅提升到了97.12%,平均误差骤降到0.0535,降幅约为60%。这个结果在统计上高度显著(p=0.003),不是偶然现象。归一化文字降解率高达58.9%(精确准确率维度)、72.2%(误差1以内准确率维度)和66.8%(平均误差维度),说明对于计数这类任务,纯文字技能放弃了约六到七成的可挽回性能。
**七、视觉技能不是万能药:失败案例同样值得关注**
研究团队并没有只展示成功的案例,他们同样认真分析了视觉技能失效的情况。
在GUI定位任务中,视觉技能有时会"过度执行"空间约定。比如指令是"播放火星视频",静态先验告诉AI要点击最小的功能性图标,于是AI把注意力锁定在播放按钮最中心的那个三角符号上,而不是整个播放控件区域,结果IoU得分从无技能的0.93和文字技能的0.56,骤降到了0.06。还有"关闭图片窗口"这个指令,视觉技能把点击区域标注得比正确位置偏上,导致精度下降。这类失败的共同原因是:静态先验编码的空间约定与当前任务的语义意图产生了冲突——先验认为"要点小图标",但有些情况下应该点的是包含这个图标的整个容器。
在计数任务中,动态先验会强迫AI明确"什么算一个独立个体",而这个问题有时候本身就是模糊的。一盏壁灯算一个还是两个(底座加灯罩)?一套耳机算一个还是两个(两个耳罩)?当AI被要求给每个"有效实例"标注一个锚点时,它必须做出明确决策,于是原本被模糊感知"pass"掉的歧义问题就暴露出来了。这类失败提示未来的改进方向:视觉技能系统需要更好地协调"语义范围的文字定义"和"空间分割的视觉操作"之间的张力。
**八、视觉技能与少样本提示:两种不同的逻辑**
看到这里,很多人可能会有一个自然的疑问:在提示词里直接给几张参考图片,效果不是一样吗?研究团队专门区分了这两种做法的本质差异。
给AI看几张参考图片,这叫"少样本提示",本质上是"实例级"的:你给的是几个具体的输入-输出配对案例,AI从中模仿局部模式。这种方法每次用完就丢,不会留下任何可以持续复用的东西,也没有办法被版本管理或跨任务共享。
而视觉技能是"协议级"的:它不包含任何具体任务的答案,只编码了跨任务实例共享的空间规律和操作约定。它可以被存储、检索、修改和复用,就像一份专业技能证书,而不是一次性的做题参考。这个区别对于需要长期积累能力的AI智能体系统来说至关重要。
**九、什么时候该用视觉技能,什么时候不该用**
研究团队还明确划定了视觉技能的适用边界,避免"为了用而用"。
对于纯符号性的任务,比如代数运算、SQL语句生成、代码合成,可复用的知识天然就是离散的、程序化的、语言性的,没有必要强加视觉支持。对于无结构的开放式视觉感知,比如对自然场景的自由问答,强加一套刚性的空间图式反而可能约束AI的视觉推理。
视觉技能应当被调用的信号是:任务的瓶颈在于空间结构或感知追踪——也就是说,当可复用的知识里有内在的视觉结构,而且这种结构确实难以用文字准确表达时,才值得配备视觉技能。
此外,研究团队还总结了有效视觉先验的三条设计原则。第一,视觉先验应当是抽象的、跨实例通用的,而不是某个具体任务的截图或答案图。第二,视觉先验中应当包含那些确实难以线性文字化的东西,比如形状、位置、边界和空间流程;如果一张图只是把文字说明换了个字体展示出来,那它提供的价值并不比文字本身更多。第三,文字里已经说清楚的信息就留在文字里,视觉先验只应当承担那些文字确实难以表达的空间结构。
**说到底,这项研究在告诉我们什么**
归根结底,这项工作揭示的是一个长期被忽视的不对称性:多模态AI系统可以"看见"图像,但它们"记住"经验的方式,却一直停留在纯文字的层面。这个不对称性,就像一位在照片里看过无数次某地风景的导游,却从来没有拥有过一张地图——他知道那个地方很美,知道有个湖,有棵大树,但当你真的问他"从停车场走到湖边要怎么走",他只能一脸茫然。
研究团队用严格的实验数据证明,这个不对称性不只是理论上的缺陷,而是有真实、可量化的性能损失。对于手机和电脑界面操作这类任务,文字技能放弃了大约一成的可挽回性能;对于密集物体计数这类任务,这个数字更是高达六到七成。
更有意思的是,简单地给AI更多的文字指令,不仅不能弥补这个损失,有时反而会帮倒忙——就像在手册里堆砌越来越多的文字描述,却没有一张配图,只会让读手册的人越来越困惑。
更强的AI模型未来可能会缩小这个差距,但研究团队认为,这不会从根本上消除视觉结构作为可复用知识的价值。当知识本身是空间性的,最好的保存方式就是空间性的,这不是模型能力强弱的问题,而是信息存储形式与信息本质的匹配问题。这项研究真正传递的核心思路是:AI智能体的技能库不应该只有文字,而应该是真正意义上的多模态资产。
有兴趣深入了解的读者,可以通过arXiv编号2606.01414查阅完整原文,或访问论文配套的GitHub项目(Little-Fridge/AutoVisualSkill)体验AutoVisualSkill系统的实际效果。
---
Q&A
Q1:视觉技能和直接给AI看几张参考图片有什么区别?
A:视觉技能是"协议级"的,它编码的是跨任务通用的空间规律,不包含任何具体答案,可以持续复用、版本管理和跨任务共享。而给AI看几张参考图片是"实例级"的少样本提示,只是提供具体的输入输出配对案例,每次用完即弃,本质上是临时性的上下文,并不能沉淀成可复用的技能资产。
Q2:AutoVisualSkill生成的视觉技能是不是只对特定AI模型有效?
A:并不是。研究团队在实验中有意选择了两个不同的强基础模型(Qwen3-VL-32B-Thinking用于界面操作,Gemini-2.5-Pro用于计数),目的就是验证视觉技能在不同模型上是否都有效。结果表明,无论基础模型本身有多强,加上视觉技能后都能进一步提升,说明视觉技能的价值不依赖于特定模型架构。
Q3:动态先验是怎么让AI数数变得更准确的?
A:动态先验的核心机制是"把中间状态写回图像"。AI每数到一个目标,就在图像上标记一个编号锚点,然后把标记了锚点的图像传回给自己看,以此作为下一步的输入。这样一来,"已经数过哪些"就不再是需要靠AI内部记忆维持的隐藏状态,而变成了图像上可见的标记,AI可以直接"看见"已经处理过的区域,大幅减少重复计数和遗漏的概率。
好文章,需要你的鼓励
本文介绍了弗莱堡大学等机构提出的3D-SC框架,通过引入三维基础模型的几何先验,无需人工标注即可解决AI图像匹配中的左右混淆和重复部件分不清的问题。
这项来自诺基亚贝尔实验室与巴黎理工学院的研究提出了In-Writing框架,让大语言模型先自由推理、再套用格式约束,准确率最高提升27%。
KAIST与MIT研究发现,RLHF对齐训练存在"对齐篡改"漏洞:当AI生成的偏见回答与高质量回答相关联时,对齐流程会反向放大偏见,现有缓解方法均未能有效解决这一结构性缺陷。
这项研究提出Skill0.5框架,通过区分通用技能(内化进参数)和特定技能(动态外置使用),配合难度感知路由和反走捷径机制,显著提升AI智能体在未见新任务上的泛化表现。