微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

让机器人理解他人视角：意大利理工学院和阿伯丁大学联合开发的空间感知训练新方法

人机交互视觉视角采纳具身人工智能

让机器人理解他人视角：意大利理工学院和阿伯丁大学联合开发的空间感知训练新方法

作者：科技行者

2025-05-27 09:37

分享至：

意大利理工学院与英国阿伯丁大学联合研究团队发布了一项突破性研究，提出通过合成数据训练视觉语言模型实现机器人的视觉视角采纳能力。研究团队创建了一个包含RGB图像、语言描述和精确空间变换矩阵的合成数据集，使机器人能够理解物体在不同视角下的空间关系。这一基础工作为实现能在人机交互中理解空间关系的具身AI系统铺平了道路，有望显著提升未来机器人与人类协作的自然度和直观性。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-27 09:37 • 科技行者

这项来自意大利理工学院(IIT)和英国阿伯丁大学联合研究团队的最新研究，刚刚于2025年5月在arXiv预印本平台上发布。这篇题为《通过空间锚定的合成世界实现机器人的具身认知》(Towards Embodied Cognition in Robots via Spatially Grounded Synthetic Worlds)的论文由Joel Currie、Gioele Migno、Enrico Piacenti等研究者共同完成，他们提出了一个令人兴奋的新方法，希望教会机器人理解"别人看到的世界"是什么样子。

想象这样一个场景：你和朋友坐在餐桌两侧，你说"请递给我左边的那杯咖啡"。对于人类来说，朋友会自然地理解你说的"左边"是从你的视角出发的，而不是从他自己的视角。这种能力在人类社交中看似简单，却是机器人至今难以掌握的重要技能，专业上称为"视觉视角采纳"(Visual Perspective Taking，简称VPT)。

研究团队指出，具备视角转换能力对于机器人与人类顺畅互动至关重要。想一想，如果机器人助手无法理解"在我左边的杯子"和"在你左边的杯子"之间的区别，它将如何正确执行你的指令？这种看似简单的能力实际上涉及复杂的空间认知，是机器人实现"具身认知"（即通过身体与环境互动来理解世界）的关键一步。

现有的机器人视角采纳解决方案通常依赖于复杂的几何模型和手工设计的视角转换规则，就像是给机器人提供一本详细的地图和转向指南。虽然这些方法在受控环境中有效，但缺乏灵活性和适应性，就像只会按固定路线行驶的自动驾驶汽车，一旦遇到地图上没有的路况就不知所措。

与此相对，视觉语言模型（VLMs）展现出惊人的灵活性和适应能力，就像能够理解各种场景的通用翻译器。然而，现有的视觉语言模型在精确的空间推理方面仍然表现不佳，特别是在推断物体位置、相对方向或特定视角下的关系时。这就像一个能认出各种物品的人，却无法准确描述它们之间的位置关系。

研究者认为，这些空间推理能力的缺乏并非模型架构的固有缺陷，而可能是由于缺少明确将空间关系与视觉场景联系起来的训练数据造成的。这就像是试图教一个孩子认识方向，但从来没有给他展示过真实的空间关系例子。

为了解决这个问题，研究团队提出了一个概念性框架，旨在训练视觉语言模型执行视觉视角采纳任务。作为实现这一愿景的第一步，他们创建了一个合成数据集，由NVIDIA Omniverse生成，用于空间推理任务的监督学习。

数据集的每个实例都包含三个关键元素：一个RGB图像（就像机器人的"眼睛"看到的图像）、一个自然语言描述（比如"桌上有一个红色立方体"）、以及一个真实的4×4变换矩阵，代表物体相对于相机的精确位置姿态。这有点像给机器人同时提供一张照片、照片的文字描述，以及物体的准确坐标和方向。

当前的研究专注于推断Z轴距离（即物体到相机的远近距离）这一基础能力，研究者计划在未来将其扩展到完整的六自由度（6 DOF）推理，包括物体的所有可能位置和旋转角度。这就像是先教会孩子判断物体的远近，然后再教他理解物体的左右、上下以及旋转方向。

研究团队设计的概念性流程包括三个关键阶段：首先，从图像和文本输入估计物体姿态，得到一个变换矩阵；其次，推断代理（如另一个机器人或人类）与相机之间的相对视角变换；最后，通过变换组合进行视角映射，得出从代理视角看到的物体姿态。通过这种结构化的空间监督方式，研究者希望推动能够执行具身认知任务的机器人发展，如视角采纳、空间推理和视角不变的物体理解。

团队将他们创建的合成数据集公开发布在Hugging Face平台上，任何人都可以通过https://huggingface.co/datasets/jwgcurrie/synthetic-distance链接访问，这为进一步研究提供了宝贵资源。

这项工作得到了欧盟"下一代欧盟PNRR MUR"资助的"未来人工智能研究"(FAIR)项目的支持，为实现能够在人机交互场景中进行空间理解的具身AI系统迈出了关键的第一步。虽然现在的成果还是初步的，但它为未来机器人能够真正理解"别人眼中的世界"铺平了道路，这对实现自然、直观的人机交互至关重要。

想象未来的机器人助手不仅能看到世界，还能理解你所看到的世界——当你说"请拿那个靠近你的杯子"时，机器人能够准确理解"靠近你"是从你的视角出发的空间关系。这种看似简单的能力，实际上是人机协作的重要基石，而这项研究正是朝着这个方向迈出的重要一步。

人机交互视觉视角采纳具身人工智能

分享至

0赞

好文章，需要你的鼓励

推荐文章

英特尔
大模型

2025-09-30 15:33

数据中心的智算挑战，英特尔要如何应对？

阿里云第九代企业级ECS实例g9i不到150天服务超2万家客户，现在已有接近3万用户。
软件工程
智能体编程
人机协作

2025-09-30 14:59

Queen's大学重磅研究：程序员的角色即将彻底改变，从码农到智能体指挥官

Queen's大学研究团队提出结构化智能体软件工程框架SASE，重新定义人机协作模式。该框架将程序员角色从代码编写者转变为AI团队指挥者，建立双向咨询机制和标准化文档系统，解决AI编程中的质量控制难题，为软件工程向智能化协作时代转型提供系统性解决方案。
医疗人工智能
视觉语言模型
超声影像诊断

2025-09-30 14:59

医疗AI的"显微镜革命"：西北工业大学团队发布首个超声影像专用智能助手EchoVLM

西北工业大学与中山大学合作开发了首个超声专用AI视觉语言模型EchoVLM，通过收集15家医院20万病例和147万超声图像，采用专家混合架构，实现了比通用AI模型准确率提升10分以上的突破。该系统能自动生成超声报告、进行诊断分析和回答专业问题，为医生提供智能辅助，推动医疗AI向专业化发展。
自回归图像生成
自监督学习
视觉理解优化

2025-09-30 14:59

上海AI实验室突破自回归图像生成瓶颈：ST-AR让AI"先理解再创造"

上海AI实验室团队发现自回归图像生成模型存在局部依赖、语义不一致和空间不变性缺失三大问题，提出ST-AR训练方法。该方法通过掩码注意力、跨步骤对比学习和跨视角对比学习，让AI"先理解再生成"。实验显示，ST-AR将LlamaGen模型的图像理解准确率提升一倍以上，图像生成质量提升42-49%，为构建更智能的多模态AI系统开辟新路径。