微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

机器人也能像人类一样通过物体导航了？阿德莱德大学的新突破让机器人告别"老眼昏花"

机器人导航物体识别空间感知

机器人也能像人类一样通过物体导航了？阿德莱德大学的新突破让机器人告别"老眼昏花"

作者：科技行者

2025-09-25 14:38

分享至：

阿德莱德大学研究团队开发了ObjectReact系统，让机器人能像人类一样通过物体关系而非图像匹配进行导航。该方法构建三维物体关系地图，使用WayObject代价地图引导机器人朝低代价区域移动。实验显示这种方法在复杂导航任务中显著优于传统方法，且对机器人身高变化具有强鲁棒性，真实环境测试证明了其实用性。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-09-25 14:38 • 科技行者

这项由澳大利亚阿德莱德大学的Sourav Garg和Dustin Craggs领导的研究团队，联合印度IIIT海德拉巴大学和阿联酋MBZUAI大学，于2024年9月发表了一篇关于机器人视觉导航的重要研究成果。这项名为"ObjectReact: Learning Object-Relative Control for Visual Navigation"的论文，有兴趣深入了解的读者可以通过项目主页https://object-react.github.io/访问完整资料和演示视频。

设想这样一个场景：你走进一家从未去过的咖啡店，想找到洗手间。你不会像GPS那样记住每一面墙壁、每一张桌子的精确位置，而是会记住"洗手间在收银台旁边的椅子后面"这样的物体关系。传统的机器人导航系统就像一个过分依赖GPS的驾驶员，必须严格按照之前记录的图像路线行进，稍有变化就容易迷路。而这项研究提出的新方法，则让机器人学会了像人类一样，通过识别和理解物体之间的关系来导航。

研究团队发现，现有的机器人导航方法存在一个根本性问题：它们过分依赖图像匹配。就好比让一个人蒙着眼睛，只能通过对比手中的照片与眼前景象来找路。这种方法不仅笨拙，还很容易在环境稍有变化时失效。相比之下，这项研究提出的"物体相对导航"方法，让机器人能够建立一种基于物体关系的地图，就像人类大脑中的认知地图一样，更加灵活和可靠。

一、突破传统思维：从看图找路到理解物体关系

传统的机器人导航就像让一个人拿着一本旧相册找路。机器人会在探索环境时拍摄大量照片，然后在需要导航时，不断对比当前看到的景象和之前拍摄的照片，试图找到匹配的图像来确定自己的位置和前进方向。这种方法虽然在某些情况下有效，但问题显而易见：如果椅子移动了位置，光线发生了变化，或者换了一个身高不同的机器人来执行任务，整个系统就可能崩溃。

研究团队意识到，这种基于图像匹配的导航方法本质上受制于机器人的具体视角和身体特征。就像两个身高差距很大的人看同一个房间会得到完全不同的视角一样，不同高度的机器人拍摄的照片也会截然不同。这就导致一个在1.3米高度训练的导航系统，在0.4米高度的机器人上可能完全失效。

相比之下，物体之间的关系是相对稳定的。无论你是站着看还是坐着看，"椅子在桌子旁边"这个关系基本不会改变。研究团队正是基于这个洞察，提出了一种全新的导航方法：让机器人学会识别和利用物体之间的空间关系，而不是单纯依赖图像的像素级匹配。

这种方法的优势显而易见。当机器人需要到达某个目标物体时，它不再需要找到一张与当前视角完全匹配的参考图像，而是可以通过理解"目标就在那个沙发后面的书架旁边"这样的物体关系来规划路径。即使房间里的一些物品发生了移动，或者换了一个完全不同的机器人来执行任务，这种基于物体关系的导航方法依然能够可靠工作。

二、巧妙的地图建构：构建三维物体关系网络

为了实现这种基于物体关系的导航，研究团队首先要解决一个关键问题：如何让机器人建立一种能够描述物体关系的地图？这就像要给一个初来乍到的人绘制一张不是基于街道名称，而是基于地标关系的特殊地图。

传统的机器人地图通常是基于图像的拓扑连接。每张图像就像地图上的一个点，相邻的图像之间用线条连接，形成一个类似地铁线路图的结构。但这种地图的问题在于，它记录的是拍摄位置之间的连接关系，而不是实际物体之间的空间关系。

研究团队提出的新方法则完全不同。他们让机器人在探索环境时，不仅记录图像，还要识别出每张图像中的所有物体，并计算这些物体之间的三维空间关系。这就像让机器人成为一个细心的室内设计师，不仅要记住房间里有什么东西，还要准确测量这些东西之间的距离和相对位置。

具体来说，机器人会使用先进的图像分割技术（类似于人眼能够自动区分不同物体的能力）来识别图像中的各个物体。然后，利用深度估算技术来推断这些物体在三维空间中的相对位置。这样，机器人就能建立一个描述"椅子距离桌子2米，桌子在沙发的左前方1.5米"这样精确关系的地图。

更进一步，当机器人在不同位置观察到相同的物体时，它还能通过特征匹配技术将这些观察结果连接起来。这就像一个人在房间里走动时，能够意识到从不同角度看到的其实是同一张桌子。这种跨视角的物体关联能力，使得机器人能够建立一个连贯、完整的物体关系网络。

三、智能路径规划：WayObject代价地图的创新

有了描述物体关系的地图，下一个挑战就是如何让机器人利用这个地图来规划路径。这就像有了一张标注着所有地标位置的地图后，还需要一个智能的导航算法来找到最佳路线。

研究团队在这里引入了一个巧妙的概念：WayObject代价地图。这个名字听起来很专业，但其实可以用一个简单的比喻来理解：想象你正在玩一个寻宝游戏，地图上的每个物体都有一个数字标签，数字越小表示这个物体离宝藏越近。那么，你自然会选择朝着数字较小的物体方向前进。

WayObject代价地图就是基于这个原理工作的。当机器人接到前往某个目标物体的任务时，系统会首先计算出当前视野中每个物体到目标位置的最短路径长度。然后，将这些路径长度信息叠加到物体的分割轮廓上，形成一个彩色编码的代价地图。在这个地图中，接近目标的物体会显示为"低代价"（用冷色调表示），而远离目标的物体则显示为"高代价"（用暖色调表示）。

这种表示方法的巧妙之处在于，它将复杂的路径规划问题转换为一个视觉化的"下山"问题。机器人只需要朝着代价较低的区域移动，就能自然地找到通往目标的路径，就像水自然地向低处流淌一样。

而且，这种代价地图是动态更新的。随着机器人的移动，它看到的物体会发生变化，代价地图也会相应地重新计算。这确保了机器人始终能够根据当前的观察结果做出最优的导航决策。

四、学习型控制器：ObjectReact的训练机制

有了WayObject代价地图作为输入，机器人还需要一个能够理解这种特殊地图并据此做出控制决策的"大脑"。这就是研究团队开发的ObjectReact控制器的作用。

传统的机器人控制器需要同时处理当前的RGB图像和目标图像，这就像让一个人一边看着眼前的路况，一边对比手中的参考照片来驾驶车辆，既复杂又容易出错。ObjectReact控制器的创新之处在于，它完全不需要RGB图像输入，只需要看懂WayObject代价地图就能做出导航决策。

这种简化带来了巨大的好处。首先，它让控制器的学习变得更加高效。就像学习开车时，如果只需要关注路况而不用分心看地图，驾驶技能的掌握会快得多。其次，这种设计使得控制器对环境变化更加鲁棒。即使房间的光线条件发生变化，或者一些装饰品的位置有所调整，只要主要物体的关系没有根本性改变，控制器依然能够可靠工作。

ObjectReact控制器的训练过程也很有趣。研究团队使用了一个名为Habitat-Matterport 3D的虚拟环境数据集，这就像为机器人创建了一个包含145个不同房间的虚拟训练场。在这个虚拟世界中，机器人可以进行大量的导航练习，学习如何根据WayObject代价地图来预测最佳的移动轨迹。

训练过程采用了模仿学习的方法，就像让学生观察老师的示范动作来学习技能一样。系统会为每个训练场景计算出理论上的最优路径，然后让ObjectReact控制器学习模仿这些最优行为。经过大量的练习，控制器逐渐掌握了如何将代价地图中的信息转换为具体的移动指令。

五、全方位性能验证：四大挑战任务的测试

为了验证这种新方法的有效性，研究团队设计了四个具有挑战性的导航任务，每个任务都测试机器人的不同能力。这就像为一个刚学会开车的新手设计不同难度的驾驶测试，从简单的直线行驶到复杂的城市道路导航。

第一个任务称为"模仿任务"，这是最基础的测试。机器人需要沿着之前探索时记录的路径重新行进，就像让人沿着自己之前走过的路线再走一遍。这个任务主要测试系统的基本导航能力和稳定性。实验结果显示，基于物体关系的方法与传统的图像匹配方法在这个任务上表现相当，都达到了约60%的成功率。

第二个任务是"替代目标任务"，难度显著提升。在这个任务中，机器人需要前往一个在探索阶段见过但从未实际到达过的物体。这就像让人根据路上看到的路标，找到一个之前只是路过但从未进入过的建筑。传统的图像匹配方法在这个任务上几乎完全失败，成功率只有约2%，因为它们缺乏足够接近目标的参考图像。相比之下，ObjectReact方法达到了约22%的成功率，展现了明显的优势。

第三个任务被称为"捷径任务"，这个测试特别能体现基于物体关系导航的智能性。在这个场景中，机器人在探索阶段走了一条绕远路，但在执行任务时需要找到更直接的路径。这就像一个人第一次去某个地方时绕了很多弯，但熟悉环境后能找到更短的路线。传统方法由于过度依赖之前的图像序列，很难跳出原有路径的束缚，成功率仅为8%。而ObjectReact方法能够基于物体关系灵活规划新路径，成功率达到了23%。

最具挑战性的是"反向任务"，机器人需要沿着探索路径的反方向行进，这相当于让人在一条只走过一次的路上反向行走。这个任务对于传统方法来说异常困难，因为反向行进时看到的景象与正向探索时记录的图像完全不同。传统方法的成功率降到了12%，而ObjectReact方法依然保持了27%的成功率，证明了基于物体关系导航的强大适应性。

六、跨平台适应性：机器人身高不再是障碍

现实世界中的机器人有着各种各样的形态：有的像扫地机器人那样贴近地面，有的像服务机器人那样接近人类身高，还有的像工业机械臂那样高高在上。这种多样性给导航系统带来了一个严峻挑战：为一种机器人开发的导航系统，能否在另一种完全不同的机器人上正常工作？

研究团队专门设计了一个实验来测试这种跨平台适应性。他们让机器人在1.3米的高度进行环境探索和地图构建，但在执行导航任务时使用两种不同的高度：1.3米（与探索时相同）和0.4米（模拟低矮的机器人）。这就像让一个成年人绘制路线图，但要同时适用于成年人和儿童使用。

实验结果令人印象深刻。传统的图像匹配方法表现出严重的身高敏感性：当机器人身高与探索时相同（1.3米）时，成功率达到82%；但当身高降至0.4米时，成功率骤降至33%，下降了近50个百分点。这种急剧的性能衰减清楚地暴露了图像匹配方法的根本局限性。

相比之下，ObjectReact方法展现了令人惊叹的身高不变性。当机器人身高从1.3米变为0.4米时，其导航成功率仅从58%下降到61%（实际上是轻微上升），几乎没有受到身高变化的影响。这个结果证明，基于物体关系的导航确实实现了对机器人具体形态的独立性。

这种跨平台适应性的实现得益于物体关系的内在稳定性。无论观察者的身高如何变化，"椅子在桌子旁边"、"书架靠着墙壁"这样的空间关系基本保持不变。通过专注于这些稳定的关系特征而非易变的视觉外观，ObjectReact方法成功地解决了传统方法面临的跨平台部署难题。

七、真实世界的验证：从仿真到现实的成功跨越

任何在实验室或仿真环境中表现出色的技术，最终都必须面临现实世界的严峻考验。研究团队将ObjectReact系统部署到了一台名为Unitree Go1的四足机器人上，这是一台类似机器狗的设备，在真实的室内环境中进行了广泛的导航测试。

真实世界的测试环境比仿真复杂得多。光线条件会发生变化，从明亮的白天到昏暗的夜晚；家具可能会移动位置；甚至可能出现探索时不存在的新障碍物。这些都是仿真环境无法完全模拟的挑战。

令人振奋的是，ObjectReact系统在真实环境中表现出了强大的适应能力。在一个测试场景中，机器人成功地避开了一个在探索阶段并不存在的障碍物，并重新规划路径到达目标。这种行为展现了系统的智能性：当某些物体被标记为"高代价"（因为无法匹配到地图中的已知物体）时，机器人会自然地避开这些区域，寻找替代路径。

更有趣的是跨设备映射实验。研究团队使用普通的智能手机摄像头进行环境探索和地图构建，然后让机器狗根据这个地图进行导航。这相当于让一个人用手机拍摄路线，然后指导一个完全不同的智能体按照这个路线行走。实验成功了，证明了系统的高度通用性。

在光线条件变化的测试中，机器人在全光照环境下构建地图，但在昏暗环境下执行导航任务，依然能够成功到达目标。这得益于现代物体检测技术的鲁棒性，以及WayObject代价地图对具体视觉外观变化的不敏感性。

八、技术细节的深入剖析：每个组件的精巧设计

ObjectReact系统的成功并非偶然，而是多个精心设计的技术组件协同工作的结果。每个组件都像一个精密仪器的零件，必须完美配合才能实现整体的卓越性能。

在物体检测环节，系统使用了SAM2（Segment Anything Model 2）这样的先进模型。这种技术就像给机器人装上了一双能够精确识别物体边界的"眼睛"。与传统的边框检测不同，SAM2能够提供像素级的精确分割，就像用画笔仔细勾勒出每个物体的轮廓一样。这种精度对于后续的空间关系计算至关重要。

在深度估算方面，系统采用了单目深度估算技术。这就像让机器人具备了人类的深度感知能力，能够仅凭一只"眼睛"就判断物体的远近关系。虽然这种方法无法提供毫米级的精度，但对于导航任务来说已经足够准确。

物体匹配环节使用了SuperPoint和LightGlue算法的组合。SuperPoint负责在图像中找到稳定的特征点，就像在照片中标注出最具辨识度的细节；LightGlue则负责在不同图像之间建立这些特征点的对应关系，就像拼图时找到片段之间的匹配边缘。

在代价编码方面，系统使用了类似于Transformer中位置编码的技术，将路径长度信息转换为多维向量表示。这种编码方法不仅能够保持数值信息，还能增强模型的表达能力，就像将单调的数字转换为丰富的音乐和弦。

九、局限性的诚实面对：技术发展的现实挑战

尽管ObjectReact系统展现了令人印象深刻的能力，但研究团队也诚实地承认了当前技术的局限性。这种科学态度不仅体现了研究的严谨性，也为未来的改进指明了方向。

最主要的挑战来自于感知精度。虽然现代物体检测和匹配技术已经相当先进，但在复杂的真实环境中仍然可能出错。有时候，同一个物体可能被识别为不同的物体；有时候，不同的物体可能被错误地认为是同一个。这就像人在光线不好的情况下可能把椅子误认为是桌子一样。

另一个挑战是动态环境的处理。ObjectReact系统假设环境中的主要物体位置相对稳定，但现实中总有一些物体会移动。当一把椅子从餐桌旁边移动到客厅中央时，基于原有物体关系构建的地图就可能过时。虽然系统有一定的容错能力，但大规模的环境变化仍然可能导致导航失败。

计算资源的需求也是一个实际考虑。实时的物体检测、特征匹配和路径规划需要相当的计算能力。在资源受限的小型机器人上部署这样的系统可能面临性能瓶颈。

此外，当前系统主要在室内环境中进行了测试和验证。户外环境的复杂性可能带来新的挑战，比如天气变化、光线变化幅度更大、物体类型更加多样等。这些都是未来研究需要解决的问题。

十、未来展望：技术演进的无限可能

站在这项研究的基础上，可以预见未来机器人导航技术将朝着更加智能化的方向发展。WayObject代价地图这种表示方法为多种扩展应用打开了大门。

一个令人兴奋的方向是与自然语言的结合。人们可以用普通话语来描述导航目标，比如"去找那个放着绿色植物的书架"，系统就能理解这种描述并生成相应的代价地图。这将使人机交互变得更加自然和直观。

另一个有潜力的发展方向是多机器人协作导航。多个机器人可以共享它们各自构建的物体关系地图，形成更加完整和准确的环境表示。这就像让多个人分别探索一个大型建筑的不同区域，然后合并他们的发现来创建一个综合地图。

探索能力的集成也是一个重要方向。当机器人遇到地图中没有的新区域或物体时，它应该能够自主地扩展地图，而不是简单地报告失败。这种能力将使机器人在动态变化的环境中变得更加实用。

长期来看，这种基于物体关系的导航方法可能会扩展到更加复杂的任务中，比如物体操作和任务规划。机器人不仅能够导航到目标位置，还能理解如何与环境中的物体进行交互，执行更加复杂的任务序列。

说到底，ObjectReact系统的真正价值不仅在于它解决了机器人导航的技术问题，更在于它展现了一种新的思维模式：从模仿人类的行为转向理解人类认知的本质。传统方法试图让机器人像人类一样"看图找路"，而这项研究则让机器人学会了像人类一样"理解空间关系"。这种认知层面的突破，可能是机器人真正融入人类生活的关键一步。

当然，从研究原型到实用产品还有很长的路要走。但这项研究为我们描绘了一个令人兴奋的未来：机器人将不再是需要精心编程和控制的机械工具，而是能够理解环境、适应变化的智能助手。在不久的将来，当我们看到机器人在家中自如地穿行，避开新增的障碍物，找到我们临时移动的物品时，请记住今天这项研究为这一切奠定的基础。毕竟，让机器人具备像人类一样灵活导航的能力，正是我们向真正智能机器人时代迈进的重要一步。

Q&A

Q1：ObjectReact导航系统与传统机器人导航有什么区别？

A：传统机器人导航就像拿着照片找路，需要对比当前看到的画面和之前拍摄的参考图像。ObjectReact系统则像人类一样通过理解物体关系导航，比如"目标在沙发后面的书架旁边"。这让机器人即使在环境发生变化或换了不同高度的机器人时，依然能够可靠导航。

Q2：WayObject代价地图是什么原理？

A：WayObject代价地图就像寻宝游戏中的提示地图。系统计算当前视野中每个物体到目标的距离，距离越近的物体标记为"低代价"（冷色调），距离越远的标记为"高代价"（暖色调）。机器人只需要朝着低代价区域移动，就能自然找到通往目标的最佳路径。

Q3：这种导航方法能在真实环境中正常工作吗？

A：研究团队已经在真实环境中成功测试了ObjectReact系统，包括使用四足机器人进行导航实验。系统能够适应光线变化、避开新增障碍物，甚至支持用手机拍摄地图、机器人执行导航的跨设备应用。不过目前主要在室内环境测试，户外复杂环境还需要进一步研究。

机器人导航物体识别空间感知

分享至