微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

一个"词"就能搞定视觉推理？香港中文大学&Meta AI联合研究的这项技术让AI"脑补"画面，速度快5倍

视觉语言模型强化学习功能性令牌

一个"词"就能搞定视觉推理？香港中文大学&Meta AI联合研究的这项技术让AI"脑补"画面，速度快5倍

作者：科技行者

2026-05-21 13:15

分享至：

ATLAS是由香港中文大学与Meta AI联合提出的视觉推理框架，将视觉操作压缩为词典中的五个特殊词汇，让AI无需生成图片或调用外部工具，即可完成复杂的交互式视觉推理。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-21 13:15 • 科技行者

这项由香港中文大学与Meta AI联合完成的研究，以预印本形式发布于2026年5月，论文编号为arXiv:2605.15198，感兴趣的读者可通过该编号查阅完整原文。

你有没有遇到过这样的情况：朋友发来一张几何题的图片，你看了半天还是没搞清楚哪条线段等于哪条，于是随手拿起笔，在图上补了一条辅助线，豁然开朗。这个"随手补线"的动作，在人类身上是最自然不过的事情，但对于AI来说，却一直是个令人头疼的难题。

人工智能在"看图说话"这件事上已经做得相当不错了——给它一张图，它能告诉你里面有什么、发生了什么。但如果问题需要AI在脑子里"动手操作"一下图片，比如给图上画条线、圈出某个区域、标注几个数字，然后基于这个"改动后的图"继续推理，那就麻烦大了。

这项研究的核心，就是在回答一个问题：能不能让AI用一个普通的"词"，来完成整个视觉推理过程？

---

一、视觉推理的老大难：AI为什么不会"动笔"

要理解这项研究解决了什么问题，先得弄清楚现有的AI在这件事上卡在哪里。

目前让AI做视觉推理，大致有三条路可走。第一条路是让AI直接生成新的图片。比如题目要求画辅助线，AI就真的把一张新图画出来，带着辅助线，然后再拿这张新图继续推理。这个思路很直接，效果也不差，但代价极大——AI需要专门的"画图模块"，训练时要从头开始，耗费大量算力，整个系统搭建起来非常复杂。

第二条路是让AI当"指挥官"，写一段代码或者调用外部工具，让电脑帮它画线、裁剪图片、标注文字，再把结果反馈给AI。这种方式省去了AI自己画图的麻烦，但每次AI发出指令，外部程序就得去执行一遍，执行完再把结果传回来——这个来回切换的过程非常耗时，而且哪怕只是在图上加个小箭头，AI也得写一大段代码，显得很笨重。

第三条路是让AI在自己的"脑子里"做推理，不生成任何图片，而是通过某种隐藏的内部状态来表达视觉操作。这个方向听起来很聪明，但问题在于这种内部状态很难训练——它不属于AI通常生成文字的那套机制，会打乱整个训练流程，而且它学到的能力往往局限于某类特定任务，换个场景就不管用了。

三条路各有致命缺陷。这支来自香港中文大学与Meta AI的研究团队便提出了一个全新的方向：ATLAS。

---

二、一个"词"的魔法：功能性令牌是什么

ATLAS的核心思想，用一句话概括就是：把视觉操作变成词典里的普通词汇。

AI在生成文字时，靠的是一个巨大的词典，里面装着"我"、"是"、"今天"、"晴天"这样的词，AI每次选一个词，一个接一个地拼出整段话。ATLAS的做法是，在这个词典里偷偷加进五个特殊的词，分别对应五种视觉操作：调整图像（比如锐化、裁剪、放大某个区域）、标注区域（圈出某个重要的部分）、画线（比如辅助线、分隔线）、画箭头（指示方向、强调某个元素）、添加文字标注（写上数字、标签）。这五个特殊词被称为"功能性令牌"（functional tokens），它们在词典里和"我""是""今天"并无二致，AI生成文字时完全按照同样的方式预测和输出它们。

当AI在推理过程中觉得"现在需要画一条辅助线"，它就直接生成那个代表"画线"的词，然后继续往后推理。这个词本身不会触发任何真实的画图操作，也不会生成任何真实的图片——它只是AI内心状态的一个符号，代表着"此刻我在脑子里画了一条线"。研究团队把这种内部的画面比喻为"想象中的推理图像"，它只存在于AI的推理逻辑里，不会出现在屏幕上。

这个设计的妙处在于，它同时解决了之前三条路的问题。跟"让AI画图"相比，它不需要真的生成任何图片，省下了大量算力。跟"让AI写代码调工具"相比，一个词就搞定了，不需要写几十行代码，也不需要等外部程序跑完再回来。跟"让AI用内部状态推理"相比，这五个词就是普通词典里的普通词，整个训练流程完全不需要改动，效率也不受影响。

---

三、五个词的分工：各司其职的视觉操作

这五个功能性令牌各自承担着不同的视觉工作，设计上刻意保持精简。

代表"调整图像"的词，处理的是对原始图片的感知增强类操作，比如把模糊的图片锐化一下、对某个小区域做放大观察、通过滤镜让某些细节更清晰。代表"标注区域"的词，对应的是圈出某块区域的动作，适合"我先把这个区域框出来，然后仔细看"这类推理场景。代表"画线"的词，主要用于几何推理中的辅助线、视觉分隔或结构标注。代表"画箭头"的词，用于指向某个方向、标示运动轨迹、或者引导注意力到某个关键元素上。代表"添加文字标注"的词，则用于在推理过程中给图上的元素加标签、写数字，方便后续的计算和引用。

研究团队在设计这套词时有意保持克制——五个词，覆盖了大多数视觉推理所需的操作类型，又不会因为引入太多新词而干扰AI原本的词汇分布。举个例子，无论是画圆、画矩形、裁剪图片还是放大某个区域，都可以归入"标注区域"这一个词来处理，而不需要为每种操作单独设一个词。

---

四、训练的两步走：从模仿到自己摸索

有了这五个词，下一步是让AI真正学会用它们。研究团队采用了"先模仿、后探索"的两阶段训练方式。

第一阶段，研究团队专门整理了一个新的训练数据集，名为ATLAS-178K，包含超过17.8万条带有功能性令牌推理轨迹的样本，覆盖超过40种不同的视觉推理任务。这些数据是怎么来的？团队从一个已有的视觉推理数据集出发，那个数据集里原本包含了大量图片处理代码，每段代码描述了如何在图片上操作（比如用某个函数画一条线、用另一个函数标注文字）。研究团队把这些代码里的具体操作提取出来，映射到五个功能性令牌上，再把推理过程整理成自然流畅的文字，最终用谷歌的Gemini-2.5-Pro对这些文字做了润色，让语言读起来更自然、过渡更流畅。

为了避免AI在这个过程中忘掉原本的视觉感知能力（这在机器学习里叫"灾难性遗忘"，就像人学了新技能把旧技能忘了），数据集里还额外加入了4万条纯粹的视觉感知训练样本，不含任何功能性令牌，专门用于保持AI的基础看图能力。

第一阶段训练让AI学会了基本套路：在什么样的推理情境下应该用哪个功能性令牌。但这种模仿式学习有局限——AI只是在重复数据集里的模式，面对真正复杂的新问题时，不一定能灵活应对。

于是有了第二阶段：强化学习。简单来说，这个阶段让AI自己反复尝试，做对了给奖励，做错了给惩罚，通过无数次的试错来提升推理能力。研究团队设计了一套综合奖励机制，从多个维度评估AI的表现。答案对不对是最核心的一项，答对了给满分，答错了给零分。功能性令牌用得对不对是另一项，但这里有个严格条件：只有在既用了功能性令牌、又答对了答案的情况下，才给功能性令牌的奖励分——单纯堆功能性令牌但答错了，拿不到这个分数，防止AI耍小聪明。格式正不正确是第三项，AI输出的答案格式必须符合要求。

除了正向奖励，还有两项惩罚。如果AI的回答太长，超过了某个阈值，会被扣分。如果AI胡乱堆砌大量功能性令牌只是为了骗取奖励，同样会被惩罚。这套机制共同确保了AI不会走歪路，而是真正学会有效地使用功能性令牌来帮助推理。

---

五、梯度稀释难题：当五个词淹没在几百个词里

强化学习阶段遇到了一个出乎意料的棘手问题，研究团队称之为"梯度稀释"。

这个问题需要先理解一点背景。AI在学习时，每次根据一道题的答案正确与否，会给整段输出里的每个词都分配一份学习信号（在机器学习领域叫"梯度"）。问题在于，ATLAS的输出通常平均有203.7个词，其中功能性令牌平均只有4.8个，占比仅2.3%。也就是说，在整段回答里，功能性令牌只是微不足道的少数。当AI根据答对答错来调整自己的行为时，那2.3%的功能性令牌和剩下97.7%的普通词汇一视同仁——它们分到的学习信号太少了，根本学不到足够的东西。

结果就是，功能性令牌的使用变得不稳定：有时候AI会不用它们，有时候又会胡乱堆砌，无法稳定地学会在恰当的时机、恰当的位置用上恰当的功能性令牌。

为了解决这个问题，研究团队设计了一种改进的训练方法，叫做"潜在锚定GRPO"（LA-GRPO）。它的核心思想是：在原有的强化学习目标基础上，额外给功能性令牌加一个专属的学习信号。每当AI输出了功能性令牌，这个专属信号就会集中、重点地更新这些词的学习参数，而不是把学习信号均匀分摊到整段输出里。原来的全局学习机制依然保留，这个专属信号只是额外叠加在上面，专门"照顾"那2.3%的功能性令牌，让它们获得足够的优化力度。

这个改进带来了明显效果，后面的实验数字可以印证这一点。

---

六、实验结果：数字背后的真实差距

研究团队在三个公开的视觉推理基准测试上对ATLAS进行了评估，分别是V*（视觉搜索类任务）、WeMath（数学推理类任务）和BLINK（包含艺术风格判断、计数、取证检测、IQ推理、拼图、多视角、空间关系等七个子类的综合视觉感知测试）。

对比的基准模型是Qwen2.5-VL-7B，这也是ATLAS所基于的底层模型。在BLINK上，Qwen2.5-VL原本的平均准确率只有22.8%，而经过完整ATLAS训练（使用LA-GRPO）之后，准确率提升到了51.3%，翻了超过一倍。

ATLAS的三个变体（SFT版、标准GRPO版、LA-GRPO版）各有侧重。仅经过第一阶段监督训练的SFT版，BLINK平均准确率就已经达到46.0%，说明功能性令牌的监督训练本身就带来了相当大的提升。加入标准强化学习的GRPO版进一步提升到50.5%，在拼图和空间关系两个子类上有较大涨幅，但在IQ推理和多视角推理上反而比SFT版略有下降，说明普通强化学习在某些结构化推理任务上会让功能性令牌的使用变得不稳定。使用了LA-GRPO的版本则在WeMath上达到45.0%、BLINK平均51.3%，在艺术风格判断（65.0%）、计数（62.5%）、取证检测（37.9%）和多视角推理（53.4%）上都有明显改善，整体表现最为均衡。

与同类方法相比，ATLAS在大多数测试上都优于其他视觉推理方法，包括依赖外部工具调用的V-Thinker、以及各种隐式潜在推理方法。值得一提的是，Gemini-2.5-Pro这类顶级闭源大模型在这些测试上依然保持领先，ATLAS在BLINK平均成绩上（51.3%）与GPT-4o的61.0%相比仍有差距，但对于一个7B参数规模的开源模型而言，这个结果已经相当有竞争力。

---

七、效率的惊人差距：快了近5倍、省了近半内存

ATLAS最打动人的成果之一，是效率上的巨大提升。

研究团队专门把ATLAS和V-Thinker在同一个测试集（BLINK-Jigsaw）上做了对比。V-Thinker是一种典型的"AI写代码调工具"式方法，每次处理一个问题，平均生成489.57个词，其中代码本身就占了350.35个词，平均耗时18.83秒，峰值内存占用2.55GB。

ATLAS处理同一个问题，平均只生成99.85个词，其中功能性令牌只有0.81个，平均耗时3.80秒，峰值内存占用1.43GB。

换算下来，ATLAS的总输出词数是V-Thinker的约五分之一，速度快了约4.96倍，内存占用减少了约44%，而答题准确率反而从42.0%提升到了57.7%。效率翻倍的同时准确率也在提升，这种情况在工程实践中并不常见。

---

八、AI真的在"看"：注意力图谱揭示的秘密

研究团队还做了一件有趣的事——他们把AI在生成功能性令牌时的"注意力分布"可视化出来，看AI到底在关注图片的哪个部分。

结果表明，不同的功能性令牌对应的注意力热点是有意义的：当AI在一道几何题里生成"画线"词时，注意力集中在那条需要补画辅助线的位置；当AI生成"标注区域"词时，注意力集中在题目中提到的对象（比如猫的身体区域）；当AI生成"画箭头"词时，注意力落在方向变化或关键元素上。

这说明功能性令牌不是随机被插入推理过程里的——AI在生成它们时确实"看"了相关的图片区域，进行了有意义的视觉关联。这种可解释性是隐式潜在推理方法很难做到的。

---

九、细节与健壮性：每个设计都有它的理由

研究团队还对奖励机制里的各个组成部分做了消融实验，验证每项设计的必要性。

去掉格式奖励后，BLINK平均准确率从51.3%下降到50.0%，因为AI的输出格式变得不规范，答案解析出错的概率增加了。去掉长度惩罚后，准确率下降到49.2%，平均序列长度增加了43.8%，AI变得越来越啰嗦，但推理质量并没有因为更多词而提升。去掉功能性令牌滥用惩罚后，影响最大，准确率骤降到47.0%——在没有惩罚的情况下，AI每次最多会堆砌18.7个功能性令牌，完全是为了骗取奖励分，而不是为了真正帮助推理。

这组实验清楚地说明：奖励机制里每一项惩罚和奖励都不是多余的，它们共同构成了一个互相制衡的系统，引导AI走在正确的轨道上。

---

说到底，ATLAS做的这件事，有点像给AI发明了一套速记符号。以前AI如果想"在脑子里画一条线"，要么得真的画一张图（费时费力），要么得写一大段代码（冗长低效），要么只能在内部的神经网络里含糊地"想一想"（难以训练、难以解释）。现在，它只需要在脑海中浮现出一个特定的符号，这个符号就代表了整个视觉操作，其余的推理继续顺畅进行。

这项研究的意义不仅仅在于"某几个测试集上准确率更高了"，更在于它提供了一种方法论上的新思路：视觉推理中的操作，完全可以被离散化、符号化，嵌入到语言模型本来的生成框架里，而不需要为此大改架构或引入额外的外部系统。

当然，这项研究目前仍有局限。目前只设计了五类功能性令牌，覆盖的视觉操作类型有限，遇到更复杂的视觉场景时可能不够用。模型规模上，研究团队用的是7B参数的Qwen2.5-VL，在顶级闭源模型面前仍有差距。未来是否可以扩展到更多类型的功能性令牌、是否能在更大规模的模型上进一步验证，是值得期待的方向。

对于我们普通人来说，这项研究意味着未来的AI助手在处理需要"边看边想"的复杂问题时，可以更快、更省资源地给出可靠答案——无论是帮你看懂一道几何题、分析一张图表，还是在照片里精准数出某样东西的数量。有兴趣深入了解的读者，可以通过arXiv:2605.15198查阅完整论文。

---

Q&A

Q1：ATLAS的五个功能性令牌分别代表什么操作？

A：ATLAS设计了五个功能性令牌，分别对应五类视觉操作。"调整图像"令牌处理图片的感知增强，比如锐化、放大或滤镜处理；"标注区域"令牌用于圈出图片中某块重要区域；"画线"令牌对应几何辅助线或视觉分隔线；"画箭头"令牌用于指示方向或引导注意力；"添加文字标注"令牌用于给图上的元素添加数字或标签。这五个词跟普通词汇一样存在于词典里，AI像生成普通词语一样生成它们。

Q2：LA-GRPO解决的"梯度稀释"问题具体是怎么发生的？

A：在强化学习训练中，AI根据答题结果给整段输出的每个词分配学习信号。ATLAS每次平均输出203.7个词，但其中功能性令牌只有4.8个，占比仅2.3%。由于学习信号被均摊到所有词上，这2.3%的功能性令牌分到的信号极少，导致它们的使用变得不稳定。LA-GRPO的解决方式是额外给功能性令牌加一个专属学习信号，重点优化这几个词，同时保留全局的强化学习机制，两者叠加使用。

Q3：ATLAS和依赖代码调用工具的视觉推理方法相比，效率差距有多大？

A：研究团队与V-Thinker在相同测试集上做了对比。V-Thinker平均每次输出489.57个词，其中代码占350.35个词，耗时18.83秒，内存占用2.55GB，准确率42.0%。ATLAS平均输出99.85个词，功能性令牌仅0.81个，耗时3.80秒，内存占用1.43GB，准确率57.7%。ATLAS速度约快5倍，内存减少约44%，准确率同时提升了15.7个百分点。

视觉语言模型强化学习功能性令牌

分享至