微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

让机器人理解他人视角：意大利理工学院和阿伯丁大学联合开发的空间感知训练新方法

人机交互视觉视角采纳具身人工智能

让机器人理解他人视角：意大利理工学院和阿伯丁大学联合开发的空间感知训练新方法

作者：科技行者

2025-05-27 09:37

分享至：

意大利理工学院与英国阿伯丁大学联合研究团队发布了一项突破性研究，提出通过合成数据训练视觉语言模型实现机器人的视觉视角采纳能力。研究团队创建了一个包含RGB图像、语言描述和精确空间变换矩阵的合成数据集，使机器人能够理解物体在不同视角下的空间关系。这一基础工作为实现能在人机交互中理解空间关系的具身AI系统铺平了道路，有望显著提升未来机器人与人类协作的自然度和直观性。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-27 09:37 • 科技行者

这项来自意大利理工学院(IIT)和英国阿伯丁大学联合研究团队的最新研究，刚刚于2025年5月在arXiv预印本平台上发布。这篇题为《通过空间锚定的合成世界实现机器人的具身认知》(Towards Embodied Cognition in Robots via Spatially Grounded Synthetic Worlds)的论文由Joel Currie、Gioele Migno、Enrico Piacenti等研究者共同完成，他们提出了一个令人兴奋的新方法，希望教会机器人理解"别人看到的世界"是什么样子。

想象这样一个场景：你和朋友坐在餐桌两侧，你说"请递给我左边的那杯咖啡"。对于人类来说，朋友会自然地理解你说的"左边"是从你的视角出发的，而不是从他自己的视角。这种能力在人类社交中看似简单，却是机器人至今难以掌握的重要技能，专业上称为"视觉视角采纳"(Visual Perspective Taking，简称VPT)。

研究团队指出，具备视角转换能力对于机器人与人类顺畅互动至关重要。想一想，如果机器人助手无法理解"在我左边的杯子"和"在你左边的杯子"之间的区别，它将如何正确执行你的指令？这种看似简单的能力实际上涉及复杂的空间认知，是机器人实现"具身认知"（即通过身体与环境互动来理解世界）的关键一步。

现有的机器人视角采纳解决方案通常依赖于复杂的几何模型和手工设计的视角转换规则，就像是给机器人提供一本详细的地图和转向指南。虽然这些方法在受控环境中有效，但缺乏灵活性和适应性，就像只会按固定路线行驶的自动驾驶汽车，一旦遇到地图上没有的路况就不知所措。

与此相对，视觉语言模型（VLMs）展现出惊人的灵活性和适应能力，就像能够理解各种场景的通用翻译器。然而，现有的视觉语言模型在精确的空间推理方面仍然表现不佳，特别是在推断物体位置、相对方向或特定视角下的关系时。这就像一个能认出各种物品的人，却无法准确描述它们之间的位置关系。

研究者认为，这些空间推理能力的缺乏并非模型架构的固有缺陷，而可能是由于缺少明确将空间关系与视觉场景联系起来的训练数据造成的。这就像是试图教一个孩子认识方向，但从来没有给他展示过真实的空间关系例子。

为了解决这个问题，研究团队提出了一个概念性框架，旨在训练视觉语言模型执行视觉视角采纳任务。作为实现这一愿景的第一步，他们创建了一个合成数据集，由NVIDIA Omniverse生成，用于空间推理任务的监督学习。

数据集的每个实例都包含三个关键元素：一个RGB图像（就像机器人的"眼睛"看到的图像）、一个自然语言描述（比如"桌上有一个红色立方体"）、以及一个真实的4×4变换矩阵，代表物体相对于相机的精确位置姿态。这有点像给机器人同时提供一张照片、照片的文字描述，以及物体的准确坐标和方向。

当前的研究专注于推断Z轴距离（即物体到相机的远近距离）这一基础能力，研究者计划在未来将其扩展到完整的六自由度（6 DOF）推理，包括物体的所有可能位置和旋转角度。这就像是先教会孩子判断物体的远近，然后再教他理解物体的左右、上下以及旋转方向。

研究团队设计的概念性流程包括三个关键阶段：首先，从图像和文本输入估计物体姿态，得到一个变换矩阵；其次，推断代理（如另一个机器人或人类）与相机之间的相对视角变换；最后，通过变换组合进行视角映射，得出从代理视角看到的物体姿态。通过这种结构化的空间监督方式，研究者希望推动能够执行具身认知任务的机器人发展，如视角采纳、空间推理和视角不变的物体理解。

团队将他们创建的合成数据集公开发布在Hugging Face平台上，任何人都可以通过https://huggingface.co/datasets/jwgcurrie/synthetic-distance链接访问，这为进一步研究提供了宝贵资源。

这项工作得到了欧盟"下一代欧盟PNRR MUR"资助的"未来人工智能研究"(FAIR)项目的支持，为实现能够在人机交互场景中进行空间理解的具身AI系统迈出了关键的第一步。虽然现在的成果还是初步的，但它为未来机器人能够真正理解"别人眼中的世界"铺平了道路，这对实现自然、直观的人机交互至关重要。

想象未来的机器人助手不仅能看到世界，还能理解你所看到的世界——当你说"请拿那个靠近你的杯子"时，机器人能够准确理解"靠近你"是从你的视角出发的空间关系。这种看似简单的能力，实际上是人机协作的重要基石，而这项研究正是朝着这个方向迈出的重要一步。

人机交互视觉视角采纳具身人工智能

分享至

0赞

好文章，需要你的鼓励

推荐文章

人工智能
多模态分析
化学验证

2025-05-21 14:36

LLM情境调节与持续工作流程提示：革新化学分子式的多模态验证技术

这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现，普通提示方法往往不可靠，因为LLM倾向于自动"纠正"错误而非指出它们。然而，通过精心设计的情境调节提示，研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误，还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明，即使不修改模型本身，也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。
人工智能
生物医学图像分析
显微镜图像分割

2025-05-21 14:34

微生物显微图像分割新突破：复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合，解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术，该模型在9个领域内数据集上提升了7.71%的分割准确度，在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像，大大提高了生物医学图像分析的效率和准确性，为科研人员提供了强大的自动化分析工具。
大语言模型
代码优化
强化学习

2025-05-21 14:32

用强化学习让大语言模型为汇编代码提速：斯坦福团队的优化探索

斯坦福大学等机构研究团队利用强化学习训练大语言模型，使其能够优化汇编代码性能。研究构建了8,072个程序的数据集，并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明，训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比，超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会，如用单一指令替代整个循环，为性能敏感应用提供了有价值的优化途径。
人工智能
音频处理
风格迁移

2025-05-21 14:31

播放师傅变声魔术：让你的录音遵循参考风格的推理时间优化新方法

这项研究提出了一种改进的声乐效果风格迁移方法，通过在推理时间优化过程中引入高斯先验知识，解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型，将风格迁移转化为最大后验概率估计问题。实验结果表明，该方法显著优于基准方法，参数均方误差降低了33%，并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。