微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 机器人不再需要"内感觉"?上海交通大学团队发现视觉就够了

机器人不再需要"内感觉"?上海交通大学团队发现视觉就够了

2025-10-14 12:09
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-10-14 12:09 科技行者

这项由上海交通大学赵俊图等研究者联合Spirit AI、清华大学、纽约大学上海分校和同济大学共同完成的研究发表于2025年9月,论文编号为arXiv:2509.18644v2。想要深入了解技术细节的读者可以通过该编号查询完整论文。

当我们伸手去拿桌上的杯子时,大脑不仅要看到杯子的位置,还要清楚地知道自己手臂现在在哪里、关节弯曲的角度如何。这种对自己身体状态的感知能力被称为"本体感觉"或"内感觉"。在机器人领域,研究人员一直认为机器人也需要这样的"内感觉"——也就是清楚地知道自己每个关节的角度、末端执行器的精确位置等信息,才能完成精准的操作任务。

然而,上海交通大学的这个研究团队提出了一个颠覆性的观点:机器人或许根本不需要这些"内感觉"信息,仅仅依靠视觉就能完成各种复杂的操作任务,而且效果可能还更好。这就像一个蒙着眼睛但能感知手臂位置的人,可能还不如一个睁着眼睛但感觉迟钝的人更能准确地抓取物品。

研究团队通过大量实验发现,传统的基于模仿学习的机器人控制策略虽然在训练环境中表现出色,但一旦环境发生变化——比如桌子高度改变或物品位置挪动——性能就会急剧下降。这种现象被称为"空间泛化能力差"。而当他们移除了机器人的"内感觉"输入,仅依靠视觉信息时,机器人的适应能力反而大幅提升。

这个发现的意义远不止于技术层面的改进。它暗示着我们对机器人控制的基本理解可能存在偏差,也为未来机器人技术的发展开辟了新的道路。研究结果显示,在高度变化的测试中,传统方法的成功率从85%降至0%,而新方法保持了85%的高成功率;在水平位置变化的测试中,传统方法成功率从64%降至6%,新方法仍保持64%的稳定表现。

一、机器人的"记忆依赖症"

要理解这项研究的价值,我们先得明白传统机器人控制方法存在什么问题。想象你教一个朋友学开车,你坐在副驾驶座上,告诉他什么时候打方向盘、什么时候踩刹车。经过反复练习,他在这条熟悉的路上开得很好。但如果换到另一条路,尤其是路况完全不同的地方,他可能就手足无措了。

传统的机器人学习方法就存在类似的问题。当机器人学习执行任务时,它不仅记住了"看到什么就做什么",还记住了"在什么身体状态下做什么"。比如,机器人学会了"当手臂处于某个特定角度、看到红色物体时,就向左移动5厘米"。这种学习方式虽然在训练环境中效果很好,但问题在于机器人过度依赖了这些身体状态信息,形成了一种"记忆依赖症"。

研究团队通过一个简单的实验就证明了这个问题。他们让机器人学习"拿笔放入笔筒"这个任务,训练时桌子高度固定在80厘米。当桌子高度改为72厘米或90厘米时,使用传统方法的机器人完全失败了,成功率降到了0%。这就好比一个只在平地练车的司机,突然遇到了上坡路,完全不知道该怎么办。

有趣的是,当研究人员在机器人的状态信息中人为添加一些随机噪声时,机器人的适应能力竟然有所改善。这就像在训练时故意给司机制造一些干扰,反而让他学会了更灵活的应对方式。这个现象进一步证实了"内感觉"信息可能是限制机器人泛化能力的主要因素。

更令人惊讶的是,当研究人员完全移除状态信息输入时,机器人不仅在训练环境中保持了良好表现,在新环境中的适应能力也大幅提升。这个发现彻底颠覆了传统观念,表明机器人或许真的不需要那么精确的"内感觉"。

二、纯视觉控制的两个关键条件

既然要让机器人仅依靠视觉工作,就必须满足两个关键条件,就像要让一个盲人司机安全驾驶需要特殊的条件一样。

第一个条件是使用"相对末端执行器动作空间"。这听起来很专业,但用做饭来比喻就很好理解。传统方法就像给机器人一个精确的坐标地图,告诉它"移动到厨房的(3,4,2)位置"。而相对动作空间更像是给出相对指令:"向前走两步,然后向右转"。这种相对指令的好处是,无论你现在站在厨房的哪个位置,都能正确执行动作。

在机器人操作中,这意味着机器人根据当前看到的画面,决定"向前移动5厘米"或"向左旋转10度",而不是移动到某个绝对坐标。这样一来,即使桌子高度改变了,机器人看到同样的相对位置关系时,仍然能做出正确的相对动作。

第二个条件是确保"完整的任务观察"。这就像要求司机有足够宽广的视野才能安全驾驶。传统的机器人通常在手腕上装一个普通摄像头,视角有限,就像透过钥匙孔看房间,只能看到局部信息。研究团队的解决方案是在机器人末端执行器的上下两侧各安装一个广角摄像头,视角达到120度×120度,这样就能看到几乎整个工作区域。

这种双广角摄像头设计的巧妙之处在于,它不仅扩大了视野范围,还能看到末端执行器下方的区域——这在很多操作任务中至关重要。比如在折叠衣服的任务中,机器人需要看到手下面被压着的布料,才能做出正确的操作决策。

研究人员还发现了一个意外的收获:在某些情况下,完全移除头顶摄像头,仅使用手腕上的双广角摄像头,机器人的表现反而更好。这就像有时候过多的信息反而会造成干扰,专注于关键信息能带来更好的效果。

三、实验验证:从简单到复杂的全面测试

为了验证这个看似反直觉的发现,研究团队设计了一系列从简单到复杂的实验,就像医学研究需要从细胞实验到动物实验再到人体试验的逐步验证过程。

最基础的实验是"拿笔放入笔筒"任务。这看似简单,但涉及精确的抓取、移动和放置动作。研究团队在不同桌子高度下测试机器人的表现,结果令人印象深刻:使用新方法的机器人在高度变化时仍保持近乎完美的成功率,而传统方法则完全失败。

接下来是"拿瓶子"和"盖盖子"等稍复杂的任务。这些任务需要机器人处理不同形状的物体,对精度要求更高。实验结果显示,新方法在水平位置变化的测试中也表现出色,成功率从6%提升到64%。

最具挑战性的是"折叠衬衫"任务。衣料的柔软性和不可预测性使这个任务异常困难,就像试图整理一团意大利面条。传统方法在位置变化时几乎无法完成任务,而新方法的成功率达到了83.4%。这个结果特别令人振奋,因为它证明了纯视觉方法不仅适用于刚性物体操作,对柔性物体同样有效。

研究团队还测试了一个复杂的全身机器人任务:"开冰箱取瓶子"。这个任务需要机器人协调躯干、腰部和腿部的运动,打开冰箱门,取出瓶子,然后关上门。这就像要求一个人在保持平衡的同时完成一系列连贯动作。结果显示,新方法的成功率从11.7%提升到78.4%,证明了其在复杂任务中的有效性。

为了确保结果的可靠性,研究团队还在不同的机器人平台上进行了测试,包括双臂人形机器人、双臂Arx5机械臂系统和26自由度全身机器人。这就像在不同品牌的汽车上测试同一个驾驶方法,确保其普适性。

四、深度分析:为什么视觉就够了

这个发现虽然令人惊讶,但仔细分析其背后的原理,我们会发现它其实很有道理。就像人类在某些情况下主要依靠视觉完成任务一样——比如用筷子夹菜时,我们主要看菜在哪里,而不是时刻关注筷子的精确角度。

研究团队对不同动作表示方法进行了详细比较。他们发现,绝对位置控制就像GPS导航给出绝对坐标,虽然精确但缺乏灵活性。相对关节角度控制则像给出关节转动指令,但同样的关节动作在不同起始位置会产生完全不同的末端位置。只有相对末端执行器控制才真正具备空间不变性,就像给出"向目标方向移动"这样的相对指令。

在摄像头配置方面,研究人员发现了一个有趣的规律:观察信息越丰富,机器人的泛化能力越强。这就像一个侦探,掌握的线索越多,越容易破案。从没有手腕摄像头到单个普通摄像头,再到双广角摄像头,机器人的成功率逐步提升。

更令人惊讶的发现是关于头顶摄像头的作用。在某些任务中,移除头顶摄像头反而能提升性能。研究人员解释说,这可能是因为头顶摄像头容易受到环境变化的影响——当桌子高度改变时,头顶视角的变化比手腕视角更明显,反而成为了干扰因素。这就像有时候过多的信息会造成决策困难,专注于关键信息反而能做出更好的选择。

研究团队还验证了这种方法在不同模型架构上的有效性。无论是π0、ACT还是Diffusion Policy,移除状态输入都能显著提升空间泛化能力。这证明了这个发现的普遍性,不依赖于特定的技术实现。

五、额外收益:效率与适应性的双重提升

除了解决空间泛化问题,这种"无状态"方法还带来了意想不到的额外好处,就像一个减肥方法不仅让人变瘦,还意外地改善了健康状况。

首先是数据效率的显著提升。传统方法需要大量多样化的训练数据来避免过拟合,就像一个学生需要做各种类型的练习题才能应对考试。而新方法由于不依赖状态信息,即使用较少的训练数据也能达到很好的效果。实验显示,当训练数据减少到50个样本时,传统方法的成功率降到了0%,而新方法仍能保持60%的成功率。

这种数据效率的提升对实际应用意义重大。收集机器人训练数据是一个昂贵且耗时的过程,每小时的专业操作数据可能价值数千元。如果能用更少的数据达到同样甚至更好的效果,就大大降低了机器人部署的成本和门槛。

其次是跨机器人平台的适应能力。由于新方法只依赖视觉信息和相对动作,不同机器人之间的迁移变得更加容易。这就像学会了骑自行车的人,很容易学会骑摩托车,因为基本的平衡原理是相通的。研究人员在从Arx5机械臂迁移到人形机器人的实验中发现,新方法只需要更少的微调步骤就能达到更好的性能。

第三个好处是对传感器配置的重新思考。传统机器人系统需要复杂的传感器网络来获取精确的状态信息,包括关节编码器、力传感器等。新方法的成功表明,在某些应用中,我们可能可以简化传感器配置,仅保留视觉传感器,这不仅降低了成本,还提高了系统的可靠性。

研究团队还发现,这种方法在处理动态环境时表现更好。当任务环境中存在移动物体或人员时,基于视觉的方法能够更好地适应这些变化,而依赖固定状态信息的方法则容易受到干扰。

六、技术实现的精妙细节

虽然"移除状态输入"听起来简单,但实际实现过程中有许多精妙的技术细节,就像做一道看似简单的菜,实际上需要掌握火候、调料配比等诸多技巧。

在摄像头配置方面,研究团队经过反复试验确定了最优方案。双广角摄像头的120度×120度视角是经过精心计算的结果——太小了看不全任务区域,太大了会引入不必要的背景干扰。摄像头的安装位置也很讲究,必须确保在机器人运动过程中不会互相遮挡,同时覆盖到所有关键的操作区域。

在数据处理方面,研究人员开发了特殊的图像预处理算法。由于使用了广角镜头,图像边缘会有一定的畸变,需要进行校正。同时,为了减少计算负担,他们还优化了图像分辨率和帧率的配置,在保证足够信息量的前提下提高处理速度。

动作空间的设计也颇有讲究。相对末端执行器动作不是简单的位置差值,而是考虑了机器人运动学特性的优化表示。研究人员发现,直接使用欧拉角表示旋转会在某些情况下产生奇点问题,因此采用了更稳定的四元数表示方法。

在训练过程中,研究团队还开发了专门的数据增强技术。通过对训练图像进行轻微的旋转、缩放和光照变化,提高了模型的鲁棒性。这就像让学生在不同的光线条件下练习阅读,提高适应能力。

模型架构方面,虽然移除了状态输入,但研究人员并没有简单地删除相关的网络层。相反,他们重新设计了特征融合机制,让视觉特征能够更好地指导动作生成。这涉及注意力机制的改进,让模型能够自动关注图像中最重要的区域。

七、挑战与局限性的坦诚分析

尽管这项研究取得了令人瞩目的成果,但研究团队也坦诚地指出了现有方法的局限性,就像一位诚实的医生会告诉病人治疗方案的副作用一样。

最明显的局限是对背景变化的敏感性。由于完全依赖视觉信息,当机器人工作环境的背景发生显著变化时——比如从白色墙壁的实验室移到木质装修的家庭环境——可能需要额外的微调。这就像一个只在室内练车的司机,突然到了乡村小路上可能需要适应期。

在双臂操作任务中,研究人员发现了一个有趣但令人困扰的现象:当只有一只手臂在工作时,另一只"闲置"的手臂有时会出现意外动作。这是因为模型基于视觉信息进行预测,当看到另一只手臂处于某个位置时,可能会错误地认为它也需要移动。这个问题虽然不影响主要任务的完成,但在某些精密操作中可能会造成干扰。

光照条件的变化也是一个需要考虑的因素。虽然研究团队在训练中加入了光照变化的数据增强,但极端的光照条件——比如强烈的阴影或反光——仍可能影响性能。这提醒我们,在实际部署时需要考虑工作环境的光照稳定性。

另一个挑战是对遮挡情况的处理。当关键物体被部分遮挡时,仅依靠视觉信息可能无法做出最优决策。传统的状态信息虽然有过拟合的问题,但在这种情况下确实能提供有价值的补充信息。这表明未来的研究可能需要探索更智能的信息融合方法。

计算资源的需求也值得关注。处理高分辨率的广角图像需要更多的计算能力,这在一定程度上抵消了简化传感器配置带来的成本节约。研究团队正在探索更高效的图像处理算法来解决这个问题。

八、对机器人技术发展的深远影响

这项研究的意义远远超出了技术层面的改进,它可能重新定义我们对机器人控制的基本理解,就像达尔文的进化论重新定义了我们对生物发展的认识。

从设计哲学上看,这项研究挑战了"更多信息总是更好"的传统观念。在人工智能发展的早期,研究者普遍认为给机器更多的传感器输入、更精确的状态信息,就能得到更好的性能。但这项研究表明,有时候"少即是多"——去掉看似重要的信息反而能获得更好的泛化能力。

这个发现对机器人硬件设计有重要启示。传统的机器人系统通常配备复杂的传感器网络,包括各种位置传感器、力传感器、惯性传感器等。如果视觉信息确实能够替代大部分状态传感器,那么未来的机器人可能会变得更简单、更便宜、也更可靠。

从制造成本角度来看,这种简化可能带来革命性的变化。高精度的关节编码器和力传感器是机器人成本的重要组成部分,如果能减少对这些传感器的依赖,就能大幅降低机器人的制造成本,使其更容易普及到家庭和小企业中。

在软件开发方面,这项研究也提供了新的思路。传统的机器人控制软件需要处理复杂的多传感器融合问题,而基于纯视觉的方法可能使软件架构变得更简洁。这不仅降低了开发难度,也减少了系统故障的可能性。

对于机器人学习算法的发展,这项研究揭示了一个重要原则:有时候约束反而能促进泛化。通过限制输入信息,迫使算法学习更本质的特征和模式,而不是依赖表面的关联。这个原理可能对其他机器学习领域也有启发意义。

九、与人类感知能力的有趣对比

这项研究还引发了关于人类感知和控制机制的有趣思考。人类在执行精细操作时,视觉和本体感觉通常是协同工作的,但在某些情况下,视觉确实占主导地位。

比如当我们用筷子夹菜时,主要依靠的是视觉反馈——看到筷子和食物的相对位置,然后调整动作。虽然我们也能感受到手指的压力和筷子的位置,但这些信息更多是起辅助作用。更有趣的是,当我们第一次使用筷子时,往往会过度关注手指的感觉,反而影响了操作的准确性。只有当我们学会主要依靠视觉引导时,才能真正熟练使用筷子。

这种现象在学习乐器时也很常见。初学者总是盯着自己的手指,试图通过触觉来确定按键位置,但这种方法很难达到高水平。真正的演奏高手往往主要依靠视觉和听觉,手指的位置感更多是无意识的。

更极端的例子是一些失去本体感觉的病人,他们可能由于神经损伤而无法感受到肢体位置,但通过视觉补偿,仍然能够完成许多日常任务。这进一步证明了视觉信息在运动控制中的重要地位。

这些人类的例子为机器人的纯视觉控制提供了生物学依据。它们表明,在某些任务中,视觉信息不仅是充分的,可能还是最适合的主导信息源。过度依赖其他感觉模态可能反而会干扰学习和泛化过程。

十、未来研究方向与应用前景

这项研究为机器人技术的未来发展开辟了多条有前景的道路,就像一次重要的地理发现为后续的探索确定了新的方向。

最直接的应用前景是家用机器人的普及。目前的家用机器人主要局限于扫地、简单搬运等任务,难以胜任复杂的家务操作。而这种基于纯视觉的控制方法,由于其良好的泛化能力和较低的硬件要求,可能使机器人能够适应千变万化的家庭环境,完成洗碗、整理房间、协助烹饪等更复杂的任务。

在工业应用方面,这项技术可能带来生产线设计的革新。传统的工业机器人需要在严格控制的环境中工作,对物品位置的精度要求极高。而具备强泛化能力的视觉控制机器人可能能够处理更多变的生产环境,减少对精密夹具和定位系统的依赖,从而降低生产线的建设和维护成本。

医疗机器人是另一个充满潜力的应用领域。手术机器人通常需要在复杂多变的生物环境中工作,每个病人的解剖结构都略有不同。具备强泛化能力的视觉控制系统可能能够更好地适应这种变化,提高手术的安全性和成功率。

在极端环境探索方面,比如深海或太空任务,机器人可能面临完全未知的环境。强泛化能力使机器人能够在没有先验训练数据的情况下完成任务,这对这些高风险、高成本的任务具有重要意义。

从技术发展角度看,这项研究还开启了几个有趣的研究方向。比如如何进一步优化视觉传感器的配置,如何设计更智能的视觉特征提取算法,如何在保持泛化能力的同时提高操作精度等。

多模态信息的智能融合也是一个值得探索的方向。虽然这项研究证明了纯视觉控制的有效性,但这并不意味着其他传感器信息完全无用。关键是如何以一种不会影响泛化能力的方式来融合多种信息源。

人机协作是另一个重要的应用方向。在人机共同工作的环境中,机器人需要能够理解和适应人类的动作意图。基于视觉的控制系统可能更容易与人类的视觉交流相结合,实现更自然的人机交互。

这项研究还可能推动机器人学习算法的进一步发展。比如如何设计更有效的自监督学习方法,让机器人能够通过观察环境自主学习新技能,而不需要大量的人工标注数据。

说到底,这项来自上海交通大学团队的研究不仅仅是一个技术突破,更是对我们思维方式的一次冲击。它提醒我们,有时候简化比复杂化更有价值,有时候约束比自由更能激发创造力。就像生活中我们经常发现,最简单的解决方案往往是最好的解决方案。

这个发现可能会改变整个机器人行业的发展方向。未来的机器人可能不再需要复杂的传感器网络,不再需要精确到毫米的定位系统,而是像人类一样主要依靠"眼睛"来感知世界、指导行动。这样的机器人不仅更便宜、更可靠,更重要的是,它们能够真正走出实验室,适应真实世界的千变万化。

当然,这项研究也还有许多问题需要解决,比如如何处理极端光照条件,如何应对复杂的遮挡情况等。但正如任何重要的科学发现一样,它的意义不在于完美无缺,而在于为后续研究指明了方向。

对于普通人来说,这项研究意味着我们可能很快就能看到更智能、更实用的机器人助手。无论是在家庭中帮忙做家务,还是在工厂里协助生产,这些"只靠眼睛"的机器人可能会成为我们日常生活的重要伙伴。而对于整个人工智能领域来说,这项研究再次证明了一个古老的智慧:有时候,少即是多。

Q&A

Q1:什么是"无状态机器人控制"?它与传统方法有什么不同?

A:无状态机器人控制是指机器人仅依靠视觉信息进行操作,不使用关节角度、末端执行器位置等"内感觉"信息。传统方法会同时使用视觉和状态信息,就像开车时既看路况又看仪表盘,而新方法只看路况不看仪表盘,反而能更好地适应环境变化。

Q2:为什么机器人不需要"内感觉"反而表现更好?

A:研究发现机器人会过度依赖状态信息,形成"记忆依赖症",只会在特定配置下执行特定动作。移除状态信息后,机器人被迫学习更本质的视觉-动作关联,就像盲人通过其他感官变得更敏锐一样,提高了适应新环境的能力。

Q3:这种技术什么时候能应用到家用机器人中?

A:目前该技术已在实验室环境中验证了有效性,包括折叠衣服、取物品等家务任务。但要真正普及到家庭还需要解决光照变化、背景干扰等问题。预计未来3-5年内可能会看到基于此技术的商用机器人产品,首先可能出现在相对简单的应用场景中。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-