2024年,来自法国埃屈里的中央工学院(Ecole Centrale de Lyon)LIRIS实验室的Alexandre Chapin、Bruno Machado、Emmanuel Dellandrea和Liming Chen共同发表了一项具有开创性的研究成果。这篇题为《Object-Centric Representations Improve Policy Generalization in Robot Manipulation》的论文探究了一种全新的视觉表征方法,这种方法能够显著提高机器人在执行各种操作任务时的泛化能力。
机器人为什么会"迷惑":传统视觉方法的局限
想象一下,你走进一个从未去过的厨房准备做饭。即使灯光不同、厨具摆放位置奇怪,你仍然能轻松识别出锅碗瓢盆并正确使用它们。但对机器人来说,这种我们认为理所当然的能力却是一项巨大挑战。
目前的机器人视觉系统主要依赖两种方法:一种是"全局表征",它将整个画面压缩成一个特征向量,就像把整个厨房场景拍成一张全景照片;另一种是"密集表征",它将画面分解成许多小区域,就像把厨房场景切分成一系列小照片。这两种方法都存在一个关键问题:它们无法有效区分场景中的关键物体和无关背景,导致机器人在环境发生变化时(比如灯光、纹理或有干扰物出现)容易"迷惑"。
中央工学院的研究团队提出了一个大胆假设:如果机器人像人类一样"看"世界——不是看一团混杂的像素,而是识别出独立的物体实体——它是否能更好地应对环境变化?
以物体为中心的表征:让机器人像人类一样"看"世界
研究团队提出的解决方案叫做"以物体为中心的表征"(Object-Centric Representations,简称OCR)。这种方法不再将图像视为均质的像素集合,而是将其分解成一组有意义的实体——即物体。
想象一下拼图游戏:传统方法就像看到一大堆拼图碎片,而OCR则能识别出这些碎片组成的独立图案(如一把椅子、一张桌子等)。这种表征方式引入了一种"归纳偏置"(inductive bias),使机器人能够更自然地理解和操作真实世界中的物体。
具体来说,研究团队采用了一种叫做"槽注意力"(Slot Attention)的算法,该算法能够将视觉输入分解成固定数量的"槽"(slots),每个槽对应场景中的一个实体。这种方法模拟了人类感知的基本特性——我们不是看到一片混乱的色彩,而是看到一个个独立的、可交互的物体。
研究方法:全面对比不同视觉表征的性能
为了验证OCR的有效性,研究团队开发了一个统一框架,用于评估不同类型的视觉表征在机器人操作任务中的表现。他们选择了7种代表性的视觉编码器进行比较,包括:
传统方法:如基于ResNet-50的全局和密集表征模型(如R3M、DINOv2、VC-1、Theia)。
OCR方法:如DINOSAUR和VIDEOSAUR及其改进版本(DINOSAUR*和VIDEOSAUR*,在机器人数据上进行了预训练)。
实验环境涵盖了三个互补的场景:
MetaWorld:一个包含简单桌面操作任务的模拟环境,使用Sawyer机械臂完成。 LIBERO-90:一个包含复杂多物体场景的模拟环境,跨越厨房、办公室和客厅等多种场景。 真实世界:研究团队开发的一套易于复制的真实机器人任务,使用低成本SO-100机械臂完成。
研究团队特别设计了测试场景来评估模型在不同视觉干扰下的泛化能力,包括新的干扰物体出现、表面纹理变化和光照条件变化。
关键创新:机器人数据预训练
值得注意的是,研究团队不仅比较了现有模型,还引入了一个创新点:在机器人操作数据上预训练OCR模型。
想象一下,如果让一个从未见过厨房的人去做饭,肯定会手忙脚乱;但如果这个人之前看过大量烹饪视频,即使在陌生厨房也能较快上手。类似地,研究团队收集并预处理了来自三个主要来源的机器人操作视频数据集:BridgeData V2(使用WidowX-250机械臂的家庭任务演示)、Fractal(使用Everyday Robots完成的厨房操作任务)和DROID(包含多个实验室的非约束机器人交互)。
这些数据集共包含超过18.8万个轨迹,涵盖了丰富的视觉和物理多样性,包括不同视角、物体类型和光照条件。研究团队使用这些数据训练OCR模型的槽注意力模块,使其能够学习到与机器人操作动态相关的结构化表征。
研究发现:OCR模型在所有测试中表现优异
实验结果令人振奋。在三个测试环境中,基于OCR的方法(特别是VIDEOSAUR*)一致优于全局和密集表征方法。
在MetaWorld环境中,除了VC-1外,所有模型的表现都超过60%的成功率。OCR模型的表现与顶级基线相当,尽管环境相对简单。
在LIBERO环境中,OCR模型的优势更为明显。VIDEOSAUR*比最好的密集模型(Theia)提高了9%的成功率,展示了其处理多物体交互的能力。
在真实世界设置中,OCR模型再次优于其他模型。VIDEOSAUR*达到了70%的成功率,而最好的密集基线仅为50%。有趣的是,最简单的模型——在ImageNet上预训练的ResNet-50——也表现得相当不错,可能是由于其紧凑的大小和视觉预训练数据的多样性。
更令人兴奋的是,在评估模型对分布外条件的泛化能力时,OCR模型表现出色,特别是在纹理和光照变化方面。在MetaWorld中,VIDEOSAUR*在纹理和光照变化下的成功率分别为35%和65%,远高于大多数基线模型。在真实世界评估中,VIDEOSAUR*同样表现出强大的鲁棒性,在纹理和光照变化下的成功率分别为50%和58%。
关键洞察:物体中心视角的重要性
通过对不同OCR变体的比较,研究团队得出了两个关键洞察:
首先,在预训练中加入机器人数据能显著提升性能。比较DINOSAUR*与DINOSAUR、VIDEOSAUR*与VIDEOSAUR的性能,可以看到在机器人数据上预训练的模型在所有环境中都有显著提升。
其次,考虑时间动态也是提升性能的重要因素。VIDEOSAUR*相比DINOSAUR*在LIBERO和真实环境中分别提高了9和26个百分点,证明了时间信息对机器人操作的重要性。
这对未来机器人技术意味着什么?
这项研究的成果意义重大。它表明,通过引入以物体为中心的视觉表征,我们可以显著提高机器人在复杂环境中的操作能力和适应性。
想象一下,这就像是给机器人装上了一副全新的"眼镜",让它能够像人类一样识别和追踪环境中的独立物体,而不是被海量的像素信息所淹没。这种能力对于家庭服务机器人、仓储机器人或医疗辅助机器人等应用至关重要,因为这些机器人需要在不断变化的环境中执行复杂任务。
尽管研究团队也指出了OCR方法的一些局限性——例如,当前的OCR方法没有固有地绑定到特定物体,缺乏语义基础;某些槽被分配给没有捕获有意义语义内容的背景区域;以及在某些失败案例中,槽也会捕获干扰物——但这些问题都为未来研究指明了方向。
结语:迈向更智能、更适应性强的机器人
这项研究表明,我们应该重新思考机器人视觉表征——从扁平的全局或密集特征图转向更结构化的物体中心表征。通过引入这种结构化偏置,机器人能够更好地捕捉任务相关的结构,并在各种视觉条件下保持稳健性。
归根结底,这项研究为弥合低级视觉输入和高级符号推理之间的差距提供了一条有前景的道路。通过让机器人像人类一样"看"世界——不是看像素,而是看对象——我们可以实现更智能、更通用、更适应性强的机器人系统。
对于未来的研究,团队建议探索如何将OCR与多模态输入和自监督学习框架进一步整合,以最大化其可扩展性和下游实用性。这可能是实现真正自主、通用机器人的重要一步。
如果你对这项研究感兴趣,可以在相关学术平台上查找原论文《Object-Centric Representations Improve Policy Generalization in Robot Manipulation》,深入了解其技术细节和实现方法。
好文章,需要你的鼓励
清华大学等多家机构研究团队完成了语音分离技术的全面调研,系统梳理了从传统方法到深度学习的技术演进。研究揭示了"鸡尾酒会问题"的核心挑战,分析了各种学习范式和网络架构的优劣,并通过统一实验框架提供了公平的性能基准。调研涵盖了实时处理、轻量化设计、多模态融合等关键技术方向,为学术界和产业界的技术选型提供了重要参考,推动语音分离从实验室走向实际应用。
浙江大学和腾讯微信视觉团队发现AI图片生成训练中"时机胜过强度"的重要规律,开发出TempFlow-GRPO新方法。通过轨迹分支技术精确评估中间步骤,结合噪声感知权重调整优化不同阶段的学习强度,将训练效率提升三倍,在复杂场景理解方面准确率从63%提升至97%,为AI训练方法论带来重要突破。
谷歌DeepMind发布突破性AI规划技术,让机器人学会像人类一样进行"情境学习"规划。该技术通过Transformer架构实现了快速适应新问题的能力,在迷宫导航、机器人控制等测试中表现优异,为自动驾驶、智能制造、医疗等领域应用奠定基础,标志着向通用人工智能迈出重要一步。
新南威尔士大学研究团队开发了ZARA系统,这是首个零样本运动识别框架,能够在未经专门训练的情况下识别全新的人类活动。该系统集成了自动构建的知识库、多传感器检索机制和分层智能体推理,不仅实现了比现有最强基线高2.53倍的识别准确率,还提供清晰的自然语言解释,为可穿戴设备和健康监护等应用领域带来了突破性进展。