这项来自意大利理工学院(IIT)和英国阿伯丁大学联合研究团队的最新研究,刚刚于2025年5月在arXiv预印本平台上发布。这篇题为《通过空间锚定的合成世界实现机器人的具身认知》(Towards Embodied Cognition in Robots via Spatially Grounded Synthetic Worlds)的论文由Joel Currie、Gioele Migno、Enrico Piacenti等研究者共同完成,他们提出了一个令人兴奋的新方法,希望教会机器人理解"别人看到的世界"是什么样子。
想象这样一个场景:你和朋友坐在餐桌两侧,你说"请递给我左边的那杯咖啡"。对于人类来说,朋友会自然地理解你说的"左边"是从你的视角出发的,而不是从他自己的视角。这种能力在人类社交中看似简单,却是机器人至今难以掌握的重要技能,专业上称为"视觉视角采纳"(Visual Perspective Taking,简称VPT)。
研究团队指出,具备视角转换能力对于机器人与人类顺畅互动至关重要。想一想,如果机器人助手无法理解"在我左边的杯子"和"在你左边的杯子"之间的区别,它将如何正确执行你的指令?这种看似简单的能力实际上涉及复杂的空间认知,是机器人实现"具身认知"(即通过身体与环境互动来理解世界)的关键一步。
现有的机器人视角采纳解决方案通常依赖于复杂的几何模型和手工设计的视角转换规则,就像是给机器人提供一本详细的地图和转向指南。虽然这些方法在受控环境中有效,但缺乏灵活性和适应性,就像只会按固定路线行驶的自动驾驶汽车,一旦遇到地图上没有的路况就不知所措。
与此相对,视觉语言模型(VLMs)展现出惊人的灵活性和适应能力,就像能够理解各种场景的通用翻译器。然而,现有的视觉语言模型在精确的空间推理方面仍然表现不佳,特别是在推断物体位置、相对方向或特定视角下的关系时。这就像一个能认出各种物品的人,却无法准确描述它们之间的位置关系。
研究者认为,这些空间推理能力的缺乏并非模型架构的固有缺陷,而可能是由于缺少明确将空间关系与视觉场景联系起来的训练数据造成的。这就像是试图教一个孩子认识方向,但从来没有给他展示过真实的空间关系例子。
为了解决这个问题,研究团队提出了一个概念性框架,旨在训练视觉语言模型执行视觉视角采纳任务。作为实现这一愿景的第一步,他们创建了一个合成数据集,由NVIDIA Omniverse生成,用于空间推理任务的监督学习。
数据集的每个实例都包含三个关键元素:一个RGB图像(就像机器人的"眼睛"看到的图像)、一个自然语言描述(比如"桌上有一个红色立方体")、以及一个真实的4×4变换矩阵,代表物体相对于相机的精确位置姿态。这有点像给机器人同时提供一张照片、照片的文字描述,以及物体的准确坐标和方向。
当前的研究专注于推断Z轴距离(即物体到相机的远近距离)这一基础能力,研究者计划在未来将其扩展到完整的六自由度(6 DOF)推理,包括物体的所有可能位置和旋转角度。这就像是先教会孩子判断物体的远近,然后再教他理解物体的左右、上下以及旋转方向。
研究团队设计的概念性流程包括三个关键阶段:首先,从图像和文本输入估计物体姿态,得到一个变换矩阵;其次,推断代理(如另一个机器人或人类)与相机之间的相对视角变换;最后,通过变换组合进行视角映射,得出从代理视角看到的物体姿态。通过这种结构化的空间监督方式,研究者希望推动能够执行具身认知任务的机器人发展,如视角采纳、空间推理和视角不变的物体理解。
团队将他们创建的合成数据集公开发布在Hugging Face平台上,任何人都可以通过https://huggingface.co/datasets/jwgcurrie/synthetic-distance链接访问,这为进一步研究提供了宝贵资源。
这项工作得到了欧盟"下一代欧盟PNRR MUR"资助的"未来人工智能研究"(FAIR)项目的支持,为实现能够在人机交互场景中进行空间理解的具身AI系统迈出了关键的第一步。虽然现在的成果还是初步的,但它为未来机器人能够真正理解"别人眼中的世界"铺平了道路,这对实现自然、直观的人机交互至关重要。
想象未来的机器人助手不仅能看到世界,还能理解你所看到的世界——当你说"请拿那个靠近你的杯子"时,机器人能够准确理解"靠近你"是从你的视角出发的空间关系。这种看似简单的能力,实际上是人机协作的重要基石,而这项研究正是朝着这个方向迈出的重要一步。
好文章,需要你的鼓励
清华大学等多家机构研究团队完成了语音分离技术的全面调研,系统梳理了从传统方法到深度学习的技术演进。研究揭示了"鸡尾酒会问题"的核心挑战,分析了各种学习范式和网络架构的优劣,并通过统一实验框架提供了公平的性能基准。调研涵盖了实时处理、轻量化设计、多模态融合等关键技术方向,为学术界和产业界的技术选型提供了重要参考,推动语音分离从实验室走向实际应用。
浙江大学和腾讯微信视觉团队发现AI图片生成训练中"时机胜过强度"的重要规律,开发出TempFlow-GRPO新方法。通过轨迹分支技术精确评估中间步骤,结合噪声感知权重调整优化不同阶段的学习强度,将训练效率提升三倍,在复杂场景理解方面准确率从63%提升至97%,为AI训练方法论带来重要突破。
谷歌DeepMind发布突破性AI规划技术,让机器人学会像人类一样进行"情境学习"规划。该技术通过Transformer架构实现了快速适应新问题的能力,在迷宫导航、机器人控制等测试中表现优异,为自动驾驶、智能制造、医疗等领域应用奠定基础,标志着向通用人工智能迈出重要一步。
新南威尔士大学研究团队开发了ZARA系统,这是首个零样本运动识别框架,能够在未经专门训练的情况下识别全新的人类活动。该系统集成了自动构建的知识库、多传感器检索机制和分层智能体推理,不仅实现了比现有最强基线高2.53倍的识别准确率,还提供清晰的自然语言解释,为可穿戴设备和健康监护等应用领域带来了突破性进展。