微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 蚂蚁集团联合多所高校:一个3B小模型凭什么在空间任务上把GPT-5压着打?

蚂蚁集团联合多所高校:一个3B小模型凭什么在空间任务上把GPT-5压着打?

2026-05-25 11:15
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-05-25 11:15 科技行者

这项研究由蚂蚁集团、中国科学技术大学、西湖大学、密歇根大学安娜堡分校和中山大学联合开展,论文以arXiv预印本形式于2026年5月18日发布,编号为arXiv:2605.17933v1,研究方向属于计算机视觉与人工智能交叉领域。

一、当AI"睁着眼睛走盲路"

假设你是一位刚搬进新家的住户,朋友给你留下了一张手写说明:"厨房在走廊右转,浴室在卧室斜对面,危险:小心客厅地毯边角绊倒。" 你照着这些文字走,可能在昏暗灯光下根本对不上号——文字描述和眼睛看到的画面之间有一道天然的鸿沟。

现在的主流AI智能体(即能在电脑界面、游戏环境或机器人任务中自主行动的AI)面临的恰恰是同样的困境。它们装备了强大的视觉感知能力,能看懂图像,却把所有"记忆"都存成纯文字:哪些位置危险、哪条路通向目标……全部翻译成"避开左上角"、"优先走中间通道"这样的文字规则。更麻烦的是,每次总结这些文字规则,还要专门请一个更大的AI"老师"来帮忙审阅和提炼,既花钱又费时。

这种"视觉感知、文字记忆"的错位,研究团队称之为"模态不匹配"——就好比一个眼神极好的厨师,每次做菜前都要靠别人把食材的样子翻译成文字,再照着文字下锅,效率之低可想而知。

更深一层的问题是训练信号的稀疏性。AI学习靠的是奖励反馈,但很多任务只在最终完成时才给一个"成功"或"失败"的信号,中间所有步骤全是一片黑暗。就像你在一座迷宫里走了99步,到第100步才被告知"错了",完全不知道错在哪一步。

正是为了解决这三个叠加在一起的难题——记忆存储形式不对、需要外部教师监督、奖励信号太稀疏——蚂蚁集团等机构的研究团队提出了一套全新的框架,名叫AtlasVA。

二、地图的力量:AtlasVA的核心思路

AtlasVA这个名字里的"Atlas"是地图集的意思,整个框架的核心思想可以用一句话概括:**让AI用图来记忆,而不是用文字**。

具体来说,研究团队为AI设计了一套"视觉技能记忆"(Visual Skill Memory,简称VSM),可以理解为一本活的地图册,由三种互补的层次组成。

第一层叫"空间热力图"。这就是真正的地图——用颜色深浅直接在图像上标注哪些位置是"危险区域"(用红色表示)、哪些位置是"通往目标的好路径"(用绿色表示)。这张图不是人手工画的,而是AI在一次次失败和成功的经历中,自动积累出来的。失败的终点位置反复出现,红色就越来越深;成功路径上的位置被频繁经过,绿色就越来越亮。AI看着这张实时更新的热力图做决策,就像老司机看着导航地图避开事故路段、选择畅通路线一样直觉。

第二层叫"视觉样例"。这相当于一本案例集,里面存着少量真实的截图,有成功案例(标注"成功,复制此结果")和失败案例(标注"失败,避开此情形")。每次做决策时,AI会从这个案例集里找出最像当前画面的参考截图,一眼看出"哦,这个局面我之前见过,上次这么走失败了"。

第三层叫"符号文字技能"。这仍然保留了少量文字规则,比如"推到两面墙夹角的箱子永远无法再移动"这类逻辑性强的原则。文字在这里不是主角,而是辅助视觉信息的逻辑锚点。

三层记忆各司其职:热力图提供空间感知,样例集提供直觉参照,文字规则提供逻辑支撑。三者共同构成了一套比单纯文字记忆丰富得多的知识体系。

三、自我进化:不需要老师的成长方式

传统框架需要一个"教师大模型"来阅读AI的失败记录,提炼成文字规则,再写回记忆库。这个过程不仅昂贵,还制造了依赖——AI的进步完全仰赖那个更大的老师。

AtlasVA则彻底拿掉了这个外部老师。它的进化方式完全依赖自己的经历数据,用的技术叫"指数移动平均"(EMA),通俗理解就是"越近发生的事情,影响越大;但老经验也不会彻底遗忘"——类似于你对一条路的印象,最近一次走的感受权重最高,但十年前的记忆也还留着一些。

每次AI跑完一批任务,系统就自动做两件事。针对危险地图:统计这批失败的轨迹在哪些位置终止,把这些"死亡坐标"叠加进危险图,用EMA机制与历史数据融合,红色越来越精准地覆盖真正危险的位置。针对亲和力地图:统计成功轨迹经过了哪些位置,把这些"通关路径"上的坐标叠加进亲和力图,绿色越来越清晰地勾勒出可行路线。

还有一个聪明的冷启动机制:训练最开始,AI几乎没有任何成功或失败的历史,纯靠统计数据什么也画不出来。为此,系统预先内置了一层"静态启发规则"——比如用广度优先搜索(BFS,一种路径计算算法)计算每个格子到目标的距离,把墙角、死胡同等结构性危险区标注出来。训练早期主要靠这层静态地图引导探索,随着经验积累,系统逐渐把权重从静态规则切换到数据驱动的统计图,就像实习生刚入职时靠手册行事,熟悉后越来越依赖自己的经验。

两张图最终按照一个调度系数混合,这个系数从0逐渐增长到1,意味着"越来越信任自己的经验,越来越少依赖初始规则",这个过渡过程被称为"调度退火"。

四、把地图变成奖励:解决稀疏反馈的难题

仅仅把地图展示给AI看还不够。研究团队进一步把这两张热力图转化成了密集的"即时奖励信号",直接用于训练AI的行为策略。

具体做法是这样的:每走一步,系统就查看AI到达的新位置在危险图上的分值,分值越高(即越危险),就扣多少分——这叫"危险惩罚"。同时,系统比较AI前后两步在亲和力图上的分值差异:如果这一步让AI离目标更近了,亲和力分值上升,就获得正向奖励;如果反向走了,分值下降,就给负信号——这叫"亲和力增益"。

这两个信号加在一起,就把原本只有任务结束才出现的稀疏奖励(成功得1分,否则得0分),变成了每一步都有反馈的密集奖励。用迷宫的比喻来说:原来你走了100步才被告知失败,现在每走一步,地图都在耳边轻声提示"这个方向更安全""那个方向危险,后退",学习效率自然天差地别。

从数学角度看,亲和力增益符合"基于势能的奖励塑造"(PBRS)理论框架——这是一种有理论保证的奖励设计方式,能保证改变奖励结构不会扭曲AI最终学到的最优策略。危险惩罚则被明确定义为"启发式安全约束",它会有意识地让AI偏好安全路径,即便安全路径不是最短路径,这是一种合理的策略调整。

整个系统由此形成了一个闭环:AI跑任务→热力图更新→奖励信号变精准→AI跑出更好的轨迹→热力图进一步更新。这个自我强化的循环不需要任何外部干预,研究团队称之为"感知-优化闭环"。

五、3D空间怎么办?把立体世界压成一张俯视图

把2D游戏画面转化成热力图相对直接,但AtlasVA还要处理3D导航和3D机械臂操作这样的立体任务,怎么把三维空间塞进一张二维地图?

研究团队采用了一种"降维投影"的方法。对于3D室内导航任务,系统把三维房间的可到达地面投影到水平X-Z平面,生成一张分辨率为每格0.25米的2D平面图,障碍物用不可通行格子标注,热力图就覆盖在这张平面图上。AI的三维坐标实时映射回这张2D图,查询对应位置的危险值和亲和力值。

对于桌面机械臂操作任务(即PrimitiveSkill系列任务),系统把操作台平面离散化成一个2.5D网格,X-Y方向的平面指导由热力图覆盖,Z轴(高度)信息则作为附加元数据保留,不直接在热力图里显示。这样既保留了关键的高度约束,又把主要的空间引导压缩到了AI最擅长读取的视觉图像里。

这种处理方式的精妙之处在于:它不是在"欺骗"AI认为世界是二维的,而是把三维空间的关键决策信息有损压缩到二维视觉格式,充分利用视觉语言模型对图像的强大处理能力。

六、跟最强对手同台竞技:实验结果怎么说

研究团队选择了四类差异极大的测试环境来验证框架效果。第一类是经典2D益智谜题:推箱子游戏(SOKOBAN)和冰湖游戏(FROZENLAKE),前者要求把箱子推到指定位置而不陷入死角,后者要求在有冰洞的湖面上走到终点。第二类是3D室内导航,基于AI2-THOR和EmbodiedBench平台,要求AI在三维虚拟房屋中找到并到达目标物体。第三类是3D机械臂精细操作,基于ManiSkill平台的PrimitiveSkill任务集,包括放置、堆叠、开抽屉、对齐四项标准任务,以及研究团队新增的第五项"交换"任务——要求机械臂把两个方块的位置互换。

AtlasVA使用的底座模型是Qwen2.5-VL-3B-Instruct,一个参数量只有30亿的"小模型",用近端策略优化(PPO)算法进行训练,全程在8块NVIDIA RTX 6000 Ada显卡上运行。

实验对手阵容相当强大:商业闭源模型方面,GPT-5、o3、o4-mini、GPT-4o、Gemini 2.5 Flash、Gemini 2.5 Pro、Gemini 2.0、Claude Sonnet 4.5、Claude Sonnet 3.7悉数登场;开源模型方面则有Qwen2.5-VL-72B(720亿参数)、Qwen2.5-VL-7B、Qwen2.5-VL-3B、VLM-R1-3B,以及同样基于RL训练的VAGEN框架。

最终结果相当醒目。AtlasVA在所有任务上的平均成功率达到了0.93,而参数量远大于它的GPT-5只有0.69,o3只有0.71。在推箱子这个对空间推理要求极高的任务上,零样本的Qwen2.5-VL-3B(即AtlasVA的底座模型,未经训练版本)成功率只有可怜的0.14,经过AtlasVA框架加持后直接跳到了0.79,超过了GPT-5的0.70。在PrimitiveSkill机械臂操作的全部五个子任务上,AtlasVA拿到了全满分1.00,而Qwen2.5-VL-72B在最难的"交换"任务上只有0.33,GPT-5也只有0.55。

最强开源基线VAGEN的平均成功率是0.78,AtlasVA高出了整整15个百分点。

七、为什么会这么快?收敛速度的秘密

不只是最终成绩好,AtlasVA在训练速度上的优势同样明显。研究团队把AtlasVA与一个只用第三层文字规则(记为"w/ L3")的基线版本做了对比,测量在相同训练步数下任务成功率的增长曲线。

在推箱子任务上,纯文字基线一路挣扎,训练完也只勉强超过0.25的成功率;AtlasVA则在140步内就攀升到了约0.80。在PrimitiveSkill操作任务上,纯文字基线最终稳定在约0.60,而AtlasVA很快就收敛到完美的1.00。这种加速效果直接验证了密集视觉奖励信号在解决"信用分配"(即判断哪一步行为对最终结果有贡献)问题上的效果。

八、每个组件都关键吗?消融实验的诊断

为了搞清楚框架里每个组成部分到底有多重要,研究团队做了系统的消融实验——即每次拆掉一个零件,看整体性能掉多少。

拆掉整个视觉技能记忆体系(即退回纯文字记忆),在推箱子和冰湖这类纯空间谜题上性能严重下滑,直接证明了"把几何约束压缩进文字会造成致命的信息损失"。

拆掉热力图(第一层)或视觉样例(第二层),性能也都有明显下降,说明这两层各有其不可替代的作用,不是冗余设计。

拆掉"图谱进化"机制(即禁止根据历史轨迹更新热力图,只保留静态启发规则),所有任务的性能都大幅退步,这证明了纯靠轨迹统计、不依赖外部教师来自主进化空间热力图确实是可行且有效的。

拆掉密集奖励塑造机制(即退回只有任务完成才有奖励的稀疏设置),AI在长期任务中明显陷入局部最优,无法爬出困境,再次确认了把视觉图谱转化为即时奖励信号的关键作用。

九、热力图是如何"长大"的

从0到400训练步的热力图演化可视化展示了一个清晰的成长过程。在步骤0时,两张图都是空白的,没有任何空间信息。随着训练推进,通过EMA不断叠加,到步骤100时已经出现了模糊的热区轮廓,到步骤200时危险图(红色)已经清晰地凸显出结构性死角和墙边陷阱,亲和力图(绿色)已经追踪出了通往目标的可行子路径。这个过程完全没有任何外部指导,纯粹是AI在与环境的反复博弈中"画"出来的。

视觉样例池的动态也很有意思。样例池容量上限是6条(3个成功案例、3个失败案例),在前40个训练步内就被迅速填满,验证成功率随即从接近零跳升到超过70%。随着训练继续,早期加入的样例(如编号POS#001的成功截图)逐渐被更新的样例(如POS#020)替换,池子始终保持新鲜,提供与AI当前探索阶段最匹配的参考案例。

十、局限性与未来方向

研究团队在论文中坦率地承认了AtlasVA当前的主要局限:把桌面3D操作投影为2.5D视觉先验的做法,在遮挡严重、视角以自我为中心的3D机器人场景中会碰壁。现实中的机器人操作往往需要处理深度信息、遮挡关系和复杂的三维几何,简单地俯视投影远远不够。把这套框架扩展到真正的高度遮挡、以自我视角运作的3D机器人环境,被明确列为下一步的核心工作。

说到底,AtlasVA讲的是一个简单却有力的道理:对于一个靠"看"来决策的AI,最好的记忆方式就是把经验直接记录在图像里,而不是翻译成文字再存档。这种与感知模态天然对齐的记忆方式,配上自我进化的机制和转化为即时反馈的奖励设计,让一个仅有30亿参数的小模型做到了百亿乃至更大规模模型难以企及的空间推理表现。这对AI智能体的设计思路本身是一种有参考价值的探索——记忆的形式,比记忆的量,有时候更重要。有兴趣深入探究技术细节的读者,可以通过arXiv编号2605.17933查阅完整论文,项目主页为wangpan-ustc.github.io/AtlasvaWeb/。

Q&A

Q1:AtlasVA的热力图是怎么生成的,需要人工标注吗?

A:不需要人工标注。AtlasVA的热力图完全由AI自己的经历数据自动生成:把历史失败轨迹的终点位置汇总成危险图,把历史成功轨迹经过的位置汇总成亲和力图,再通过指数移动平均(EMA)机制持续更新。训练初期AI经验不足时,系统会用预设的拓扑规则(如广度优先搜索距离场)提供初始引导,随训练推进逐渐过渡到数据驱动的统计图。

Q2:AtlasVA用的3B小模型为什么能超过GPT-5这样的大模型?

A:GPT-5等模型在空间任务上的瓶颈不在于参数量,而在于它们靠文字来理解和表达空间关系,存在模态不匹配的问题。AtlasVA的3B模型通过视觉热力图直接把空间危险和路径信息以图像形式注入决策过程,绕开了文字转译带来的信息损耗,同时用密集的即时奖励信号加速训练收敛。这说明在空间密集型任务中,记忆和反馈的形式有时比模型规模更重要。

Q3:AtlasVA的视觉样例池是如何决定保留哪些截图的?

A:样例池的管理分两步:新增时,系统从失败和成功轨迹中提取"拐点帧"(如刚好进入死局前的那一帧或完成子目标的那一帧),用DINOv2视觉编码器计算当前观察与候选样例的余弦相似度,优先保留最具代表性的截图;淘汰时,当池子达到上限(正负各3条)后采用先进先出(FIFO)机制,用更新的样例逐步替换早期样例,确保参考案例始终贴近AI当前的探索阶段。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-