
2024年,来自法国埃屈里的中央工学院(Ecole Centrale de Lyon)LIRIS实验室的Alexandre Chapin、Bruno Machado、Emmanuel Dellandrea和Liming Chen共同发表了一项具有开创性的研究成果。这篇题为《Object-Centric Representations Improve Policy Generalization in Robot Manipulation》的论文探究了一种全新的视觉表征方法,这种方法能够显著提高机器人在执行各种操作任务时的泛化能力。
机器人为什么会"迷惑":传统视觉方法的局限
想象一下,你走进一个从未去过的厨房准备做饭。即使灯光不同、厨具摆放位置奇怪,你仍然能轻松识别出锅碗瓢盆并正确使用它们。但对机器人来说,这种我们认为理所当然的能力却是一项巨大挑战。
目前的机器人视觉系统主要依赖两种方法:一种是"全局表征",它将整个画面压缩成一个特征向量,就像把整个厨房场景拍成一张全景照片;另一种是"密集表征",它将画面分解成许多小区域,就像把厨房场景切分成一系列小照片。这两种方法都存在一个关键问题:它们无法有效区分场景中的关键物体和无关背景,导致机器人在环境发生变化时(比如灯光、纹理或有干扰物出现)容易"迷惑"。
中央工学院的研究团队提出了一个大胆假设:如果机器人像人类一样"看"世界——不是看一团混杂的像素,而是识别出独立的物体实体——它是否能更好地应对环境变化?
以物体为中心的表征:让机器人像人类一样"看"世界
研究团队提出的解决方案叫做"以物体为中心的表征"(Object-Centric Representations,简称OCR)。这种方法不再将图像视为均质的像素集合,而是将其分解成一组有意义的实体——即物体。
想象一下拼图游戏:传统方法就像看到一大堆拼图碎片,而OCR则能识别出这些碎片组成的独立图案(如一把椅子、一张桌子等)。这种表征方式引入了一种"归纳偏置"(inductive bias),使机器人能够更自然地理解和操作真实世界中的物体。
具体来说,研究团队采用了一种叫做"槽注意力"(Slot Attention)的算法,该算法能够将视觉输入分解成固定数量的"槽"(slots),每个槽对应场景中的一个实体。这种方法模拟了人类感知的基本特性——我们不是看到一片混乱的色彩,而是看到一个个独立的、可交互的物体。
研究方法:全面对比不同视觉表征的性能
为了验证OCR的有效性,研究团队开发了一个统一框架,用于评估不同类型的视觉表征在机器人操作任务中的表现。他们选择了7种代表性的视觉编码器进行比较,包括:
传统方法:如基于ResNet-50的全局和密集表征模型(如R3M、DINOv2、VC-1、Theia)。
OCR方法:如DINOSAUR和VIDEOSAUR及其改进版本(DINOSAUR*和VIDEOSAUR*,在机器人数据上进行了预训练)。
实验环境涵盖了三个互补的场景:
MetaWorld:一个包含简单桌面操作任务的模拟环境,使用Sawyer机械臂完成。 LIBERO-90:一个包含复杂多物体场景的模拟环境,跨越厨房、办公室和客厅等多种场景。 真实世界:研究团队开发的一套易于复制的真实机器人任务,使用低成本SO-100机械臂完成。
研究团队特别设计了测试场景来评估模型在不同视觉干扰下的泛化能力,包括新的干扰物体出现、表面纹理变化和光照条件变化。
关键创新:机器人数据预训练
值得注意的是,研究团队不仅比较了现有模型,还引入了一个创新点:在机器人操作数据上预训练OCR模型。
想象一下,如果让一个从未见过厨房的人去做饭,肯定会手忙脚乱;但如果这个人之前看过大量烹饪视频,即使在陌生厨房也能较快上手。类似地,研究团队收集并预处理了来自三个主要来源的机器人操作视频数据集:BridgeData V2(使用WidowX-250机械臂的家庭任务演示)、Fractal(使用Everyday Robots完成的厨房操作任务)和DROID(包含多个实验室的非约束机器人交互)。
这些数据集共包含超过18.8万个轨迹,涵盖了丰富的视觉和物理多样性,包括不同视角、物体类型和光照条件。研究团队使用这些数据训练OCR模型的槽注意力模块,使其能够学习到与机器人操作动态相关的结构化表征。
研究发现:OCR模型在所有测试中表现优异
实验结果令人振奋。在三个测试环境中,基于OCR的方法(特别是VIDEOSAUR*)一致优于全局和密集表征方法。
在MetaWorld环境中,除了VC-1外,所有模型的表现都超过60%的成功率。OCR模型的表现与顶级基线相当,尽管环境相对简单。
在LIBERO环境中,OCR模型的优势更为明显。VIDEOSAUR*比最好的密集模型(Theia)提高了9%的成功率,展示了其处理多物体交互的能力。
在真实世界设置中,OCR模型再次优于其他模型。VIDEOSAUR*达到了70%的成功率,而最好的密集基线仅为50%。有趣的是,最简单的模型——在ImageNet上预训练的ResNet-50——也表现得相当不错,可能是由于其紧凑的大小和视觉预训练数据的多样性。
更令人兴奋的是,在评估模型对分布外条件的泛化能力时,OCR模型表现出色,特别是在纹理和光照变化方面。在MetaWorld中,VIDEOSAUR*在纹理和光照变化下的成功率分别为35%和65%,远高于大多数基线模型。在真实世界评估中,VIDEOSAUR*同样表现出强大的鲁棒性,在纹理和光照变化下的成功率分别为50%和58%。
关键洞察:物体中心视角的重要性
通过对不同OCR变体的比较,研究团队得出了两个关键洞察:
首先,在预训练中加入机器人数据能显著提升性能。比较DINOSAUR*与DINOSAUR、VIDEOSAUR*与VIDEOSAUR的性能,可以看到在机器人数据上预训练的模型在所有环境中都有显著提升。
其次,考虑时间动态也是提升性能的重要因素。VIDEOSAUR*相比DINOSAUR*在LIBERO和真实环境中分别提高了9和26个百分点,证明了时间信息对机器人操作的重要性。
这对未来机器人技术意味着什么?
这项研究的成果意义重大。它表明,通过引入以物体为中心的视觉表征,我们可以显著提高机器人在复杂环境中的操作能力和适应性。
想象一下,这就像是给机器人装上了一副全新的"眼镜",让它能够像人类一样识别和追踪环境中的独立物体,而不是被海量的像素信息所淹没。这种能力对于家庭服务机器人、仓储机器人或医疗辅助机器人等应用至关重要,因为这些机器人需要在不断变化的环境中执行复杂任务。
尽管研究团队也指出了OCR方法的一些局限性——例如,当前的OCR方法没有固有地绑定到特定物体,缺乏语义基础;某些槽被分配给没有捕获有意义语义内容的背景区域;以及在某些失败案例中,槽也会捕获干扰物——但这些问题都为未来研究指明了方向。
结语:迈向更智能、更适应性强的机器人
这项研究表明,我们应该重新思考机器人视觉表征——从扁平的全局或密集特征图转向更结构化的物体中心表征。通过引入这种结构化偏置,机器人能够更好地捕捉任务相关的结构,并在各种视觉条件下保持稳健性。
归根结底,这项研究为弥合低级视觉输入和高级符号推理之间的差距提供了一条有前景的道路。通过让机器人像人类一样"看"世界——不是看像素,而是看对象——我们可以实现更智能、更通用、更适应性强的机器人系统。
对于未来的研究,团队建议探索如何将OCR与多模态输入和自监督学习框架进一步整合,以最大化其可扩展性和下游实用性。这可能是实现真正自主、通用机器人的重要一步。
如果你对这项研究感兴趣,可以在相关学术平台上查找原论文《Object-Centric Representations Improve Policy Generalization in Robot Manipulation》,深入了解其技术细节和实现方法。
好文章,需要你的鼓励
本文介绍了由南方科技大学等机构于2026年4月发表的研究(arXiv:2604.08865),提出了名为SPPO的大模型推理训练新方法。该方法将推理任务重新建模为"序列级情境赌博机",用一个轻量级价值模型预测题目难度,以单次采样替代GRPO的多次采样,解决了标准PPO的"尾部效应"问题。实验显示,SPPO在数学基准测试上超越GRPO,训练速度提升约5.9倍,配合小尺寸价值模型还能显著降低显存占用。
这项由香港科技大学数学系完成的研究(arXiv:2604.10465,2026年ICLR博客论文赛道)提出了一种从朗之万动力学视角理解扩散模型的统一框架。研究指出,扩散模型的前向加噪和逆向去噪过程,本质上是朗之万动力学这一"分布恒等操作"被拆成了两半。在这个视角下,VP、VE-Karras和Flow Matching等不同参数化的模型可被精确互译,SDE与ODE版本可被统一解释,扩散模型相对VAE的理论优势得以阐明,Flow Matching与得分匹配的等价性也得到了严格论证。
中国人民大学高岭人工智能学院等机构联合开发了AiScientist系统,旨在让AI自主完成机器学习研究的完整工程流程,包括读论文、搭环境、写代码、跑实验和迭代调试,全程无需人工干预。系统核心设计是"薄控制、厚状态":由轻量指挥官协调专业代理团队,通过"文件即通道"机制将所有中间成果持久化存储,使每轮工作都能建立在前一轮积累的基础上。在PaperBench和MLE-Bench Lite两个基准上,系统表现显著优于现有最强对比系统,论文发布于2026年4月。
这项由字节跳动发布的研究(arXiv:2604.13030)提出了生成式精化网络(GRN),一套模仿人类画家"边画边改"直觉的视觉生成新框架。其核心包括两项创新:层级二进制量化(HBQ)通过多轮二分逼近实现近乎无损的离散图像编码,以及全局精化机制允许模型在每一步对整张图像的所有位置重新预测并随时纠错,从根本上解决了自回归模型的误差积累问题。配合基于熵值的自适应步数调度,GRN在ImageNet图像重建(rFID 0.56)和生成(gFID 1.81)上均创下新纪录,并在文本生成图像和视频任务上以20亿参数达到同等规模方法的领先水平。