微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 机器人长了"透明皮肤"还能同时看能摸,北京大学团队让机器人操作精度提升54%

机器人长了"透明皮肤"还能同时看能摸,北京大学团队让机器人操作精度提升54%

2025-12-25 13:07
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-12-25 13:07 科技行者

这项由北京大学人工智能研究院的李宇阳、陈英瀚等研究者领导的研究发表于2025年12月,论文编号为arXiv:2512.09851v1。研究团队还包括来自北京通用人工智能研究院、加州大学洛杉矶分校以及剑桥大学的多位学者。有兴趣深入了解的读者可以通过该论文编号查询完整研究内容。

现在的机器人就像是戴着厚手套工作的人,虽然能抓取物品,但对精细操作总是力不从心。你有没有想过,为什么人类能够轻松地穿针引线、拧紧螺丝,甚至在黑暗中摸索钥匙,而机器人却经常在这些看似简单的任务上败下阵来?答案很简单:我们不仅有眼睛能看,还有敏感的触觉能感知。而传统的机器人就像是失去了一种重要感官的残疾人,要么只能看不能摸,要么只能摸不能看。

这个问题困扰了机器人研究领域很长时间。以往的触觉传感器就像是不透明的橡胶手套,虽然能感受到压力和形变,但完全阻挡了视线,让机器人在需要精确对准的任务中变成了"瞎子"。而那些所谓的"透视皮肤"传感器虽然试图解决这个问题,但就像是有色眼镜,看到的画面模糊不清,而且需要在"看"和"摸"之间来回切换,就像一个人需要不断戴上摘下眼镜一样麻烦。

北京大学的研究团队彻底改变了这种局面。他们开发出了一种名为TacThru的革命性传感器,这就像是给机器人装上了一双既能看又能摸的"神奇眼睛"。更重要的是,他们还开发了TacThru-UMI学习系统,让机器人能够像人类一样自然地协调视觉和触觉信息。在五项复杂操作任务的测试中,这套系统的平均成功率达到了85.5%,比仅使用视觉的机器人提升了54.3%,比交替使用触觉和视觉的系统提升了29%。

一、透明皮肤的秘密:同时看见和感受的魔法

传统的机器人触觉传感器就像是用黑布包裹的压力计,虽然能感受到压力变化,但完全挡住了视线。而TacThru传感器的创新就像是发明了一种神奇的"隐形橡胶",既能保持触觉敏感度,又能让光线自由穿过。

这种"隐形橡胶"实际上是一种完全透明的弹性材料,就像是高级的硅胶,但透明度接近玻璃。当机器人的手指压在物体上时,这种材料会发生微妙的形变,就像是在透明果冻上按手印一样。内置的摄像头可以清晰地捕捉到这些形变,同时还能透过材料看到外面的世界。

但是,仅仅让材料透明还不够。研究团队遇到了一个关键问题:如何在透明背景下准确追踪那些用于测量形变的标记点?这就像是要在透明玻璃上画出能在任何背景下都清晰可见的记号一样困难。

研究团队的解决方案颇具创意,他们发明了一种叫做"关键线标记"的巧妙设计。每个标记点都是由两个同心圆组成的,内圈是黑色的小圆点,外圈是白色的圆环。这样的设计就像是给每个标记点戴上了一个白色的"光环",无论背景是什么颜色,你总能看到黑色内圈和背景之间的边界线。即使黑色内圈在黑色背景下完全隐身,白色外圈仍然会暴露它的位置;反之,即使白色外圈在白色背景下消失,黑色内圈依然清晰可见。

为了制造这些标记点,研究团队采用了一种类似于制作双色曲奇饼干的方法。他们首先用激光切割制作了精确的模板,然后像烘焙师一样,先在透明材料上喷涂黑色的内圈,等干燥后再喷涂白色的外圈。在一块40毫米乘40毫米的传感器表面上,他们精确地布置了64个这样的双色标记点,每个相距3.5毫米,就像是在透明玻璃上绘制了一幅精密的地图。

这种设计的另一个巧妙之处在于它的持续照明系统。传统的传感器需要在"看"和"摸"之间切换照明模式,就像是要不断开关手电筒一样。而TacThru使用持续的LED照明,就像是房间里永远亮着的灯,让传感器能够同时进行视觉观察和触觉测量,再也不需要在两种模式之间切换。

二、智能追踪系统:让机器人拥有超人的感知能力

有了透明材料和聪明的标记设计,下一个挑战是如何让机器人准确追踪这些标记点的移动。这就像是要在拥挤的人群中始终盯住64个特定的人一样困难,特别是当环境复杂、光线变化时。

研究团队采用了一种叫做卡尔曼滤波的智能追踪算法,这就像是给机器人装上了一个预测未来的大脑。这个系统不仅能记住每个标记点上一秒的位置,还能根据运动规律预测它下一秒可能出现的位置。当传感器检测到多个候选点时,系统会智能地将最靠近预测位置的点识别为正确的标记,就像是一个经验丰富的侦探能够在众多线索中找到真正的证据一样。

这种追踪系统的强大之处在于它的容错能力。即使某个标记点暂时被遮挡或者环境中出现了干扰,系统仍然能够保持追踪的连续性。这就像是一个优秀的导航系统,即使GPS信号暂时丢失,它仍然能够根据车辆的运动轨迹推算出当前位置。

为了验证这套追踪系统的可靠性,研究团队设计了一个有趣的对比实验。他们制作了两个传感器,一个使用新的关键线标记,另一个使用传统的纯黑色标记,然后让它们同时抓取一个印有复杂黑白文字的塑料瓶。这个测试就像是让两个人同时在花花绿绿的壁纸前找特定的图案一样困难。

实验结果令人印象深刻。传统的黑色标记在复杂背景下经常"失踪",就像黑色的蚂蚁爬到黑色地毯上一样难以发现。而新的关键线标记始终保持可见,追踪成功率几乎达到100%。更重要的是,整个追踪过程的计算速度极快,平均每帧图像只需要6.08毫秒,完全能够满足机器人实时操作的需求。

三、学习系统:让机器人像人类一样协调多种感官

拥有了能同时看和摸的传感器只是第一步,真正的挑战是如何让机器人学会像人类一样自然地协调这两种感官信息。这就像是教一个天生失明的人突然获得视力后如何协调眼手配合一样复杂。

研究团队开发的TacThru-UMI学习系统基于一种叫做"扩散策略"的先进人工智能技术。这种技术就像是教机器人通过观察人类的示范来学习技能,有点像学徒跟着师傅学手艺的过程。不同的是,这个"师傅"是能够同时处理视觉、触觉和空间位置信息的超级大脑。

整个学习系统的架构就像是一个多频道的音响系统。来自手腕摄像头的全局视觉信息就像是主音响,提供整体环境的概览;TacThru传感器的近距离视觉信息就像是高音喇叭,捕捉精细的细节;触觉标记的位移数据就像是低音炮,提供物理接触的深层信息;而机器人的关节位置信息就像是环绕声,提供空间定位的全方位感知。

这些不同来源的信息首先被转换成机器人能够理解的"语言"。视觉信息通过预训练的DINOv2网络进行编码,这就像是给机器人配备了经过专业训练的"视觉翻译官"。触觉和位置信息则通过专门的神经网络处理,就像是配备了"触觉翻译官"和"空间翻译官"。

最关键的是,系统为每种感官信息都分配了独特的"身份标签",就像是给不同的乐器分配不同的声道一样。这样,当多种信息同时输入时,机器人的"大脑"能够清楚地知道哪些信息来自视觉,哪些来自触觉,从而做出最合适的决策。

四、五大挑战任务:从基础操作到精密配合

为了全面测试TacThru系统的能力,研究团队设计了五个不同难度级别的操作任务,就像是为机器人准备的技能考试,从基础的抓取放置到需要毫米级精度的插入操作。

第一个任务是抓瓶放碗,这是最基础的拾取放置操作。机器人需要从随机位置抓起一个瓶子,然后放入指定的碗中。这个任务就像是让孩子学习收拾玩具一样简单直接,主要测试系统的基本协调能力。所有测试方案在这个任务上都表现良好,成功率都超过95%,证明了TacThru系统的基础功能完全可靠。

第二个任务是抽取纸巾,这个看似简单的任务实际上极具挑战性。纸巾又薄又软,传统的触觉传感器根本感受不到这种轻微的接触,就像戴着厚手套试图感受羽毛的重量一样困难。而且纸巾容易滑落,需要机器人能够实时监控抓取状态并及时调整。TacThru的透明设计在这里发挥了关键作用,它能够直接"看到"纸巾的位置和形变状态,当发现纸巾滑落时立即调整抓取力度。结果显示,TacThru方案达到了83%的成功率,而传统触觉方案几乎完全失败。

第三个任务是螺栓分拣,这是一个需要精细视觉识别的任务。三种不同的M12×25螺栓在形状和颜色上都有细微差别:A型是黑色的纽扣头螺栓,B型是银色的内六角螺栓,C型是黑色的尼龙内六角螺栓。机器人需要识别螺栓类型并放入对应的容器中。这个任务的难点在于螺栓很小(头部直径只有12毫米),普通的手腕摄像头在15厘米的操作距离下根本看不清细节,就像是要在远处分辨不同硬币的面值一样困难。TacThru传感器距离物体只有2-3毫米,能够清晰地看到螺栓的纹理和颜色差异。通过DINOv2视觉编码分析,TacThru产生的特征聚类清晰分离,而传统触觉传感器的编码则完全混淆在一起。

第四个任务是悬挂剪刀,这是一个需要触觉确认的典型任务。机器人需要抓住剪刀并将其挂在钩子上,关键是要准确判断剪刀是否成功挂好。这个判断无法仅通过视觉完成,因为2D摄像头无法准确感知深度关系,而且剪刀和钩子的接触区域经常被遮挡。只有通过触觉感受剪刀重量的变化才能确认是否挂好:成功挂好时,剪刀的重量会转移到钩子上,传感器感受到的压力会突然减小;而如果没挂好,剪刀的全部重量仍然作用在机器人手指上。TacThru和传统触觉方案在这个任务上都表现良好,成功率都达到80%以上。

第五个任务是插入瓶盖,这是最复杂的多模态协调任务。机器人需要抓住瓶盖并将其精确插入白色支架中,这需要毫米级的对准精度。这个任务最有趣的地方在于,机器人学会了根据情况自适应地选择策略。当瓶盖和支架的接触面清晰可见时,机器人主要依靠视觉信息进行精确对准,就像是用眼睛引导手的动作;而当视线被遮挡或光线条件不佳时,机器人会自动切换到触觉引导模式,通过感受接触压力和标记位移来完成插入。这种自适应行为完全是通过学习自然产生的,没有任何人工编程,展现了TacThru系统的智能化程度。

五、实验结果:数据背后的突破性进展

整个实验的设计非常严谨,研究团队为每个任务收集了62到147次人工示范,然后训练四种不同的策略进行对比。为了确保公平性,他们在机器人的两个手指上分别安装了TacThru传感器和传统GelSight传感器,使用完全相同的训练数据。

TT-M方案(完整TacThru系统)在所有任务中都表现最佳,平均成功率达到85.5%。特别值得注意的是,在最具挑战性的任务中,优势更加明显。在抽取纸巾任务中,TT-M达到83%成功率,而传统触觉方案(GS-M)只有20%,纯视觉方案更是只有15%。在螺栓分拣任务中,TT-M的85%成功率远超传统方案的50%。

更深入的分析揭示了TacThru系统成功的根本原因。在抽取纸巾任务中,当纸巾开始滑落时,传统的触觉传感器因为信号太微弱而无法察觉,但TacThru能够直接"看到"滑落过程并立即触发重新抓取动作。在螺栓分拣中,通过对DINOv2特征向量的聚类分析发现,TacThru产生的不同螺栓特征明显分离,聚类间距离超过0.8,而GelSight传感器的B型和C型螺栓特征几乎完全重叠,相似度超过0.9,这直接解释了识别失败的原因。

在插入瓶盖任务中,研究团队观察到了最有趣的现象:同一个机器人在不同情况下会自动选择不同的操作策略。当插入过程中接触界面清晰可见时,机器人主要关注视觉信息,进行精确的视觉伺服;而当抓取角度导致接触面被遮挡时,机器人会自动转向触觉反馈,通过标记位移模式来感知接触状态并引导插入。这种策略切换完全是学习过程的自然结果,没有任何人为设定的规则。

六、技术深度:解决传统感知局限的创新路径

TacThru系统的成功不仅仅在于单一技术的突破,更在于它系统性地解决了机器人多模态感知的三个核心问题。

第一个问题是模态切换的低效性。传统的透视皮肤传感器需要在视觉模式和触觉模式之间切换,这就像是一个人需要在望远镜和放大镜之间不断切换来观察同一个物体。这种切换不仅耗时,还容易错过关键时刻的信息。TacThru通过完全透明的材料设计彻底消除了模态切换的需要,实现了真正的同时感知。

第二个问题是标记追踪的可靠性。在复杂环境中,传统的单色标记经常"隐身",就像黑色文字写在黑纸上一样难以识别。研究团队通过关键线标记设计创造性地解决了这个问题,确保在任何背景下都有可见的边界线。配合卡尔曼滤波算法,系统能够在环境干扰下保持稳定的追踪性能。

第三个问题是多模态信息的融合。人类能够自然地协调视觉和触觉信息,但机器人往往难以平衡不同感官的权重。TacThru-UMI通过Transformer架构和专门的模态嵌入机制,让机器人学会了动态调整对不同感官信息的依赖程度。

从技术实现的角度,TacThru保持了与标准VBTS制造流程的兼容性,这意味着现有的触觉传感器制造商可以相对容易地升级到新技术。唯一的主要改变是将不透明的弹性体替换为透明材料,这大大降低了技术转移的门槛。

七、应用前景:从实验室到真实世界的广阔天地

TacThru技术的意义远远超出了学术研究的范畴,它为机器人在真实世界中的广泛应用开辟了新的可能性。

在制造业中,精密装配一直是机器人应用的瓶颈。汽车制造、电子产品组装、精密仪器制造等行业需要大量的精细操作,而传统的机器人往往只能完成预设程序化的任务,缺乏对突发情况的适应能力。TacThru的出现改变了这种状况,它让机器人能够像经验丰富的技工一样,通过视觉和触觉的配合来处理各种复杂情况。

在家庭服务领域,TacThru技术使机器人能够处理更多日常任务。收拾房间时,机器人需要区分不同材质和形状的物品;准备食物时,需要感知食材的软硬程度;照料老人时,需要gentle地协助日常活动。这些都需要视觉和触觉的精密配合,而TacThru正是为此而生。

在医疗领域,手术机器人和康复辅助设备可以借助TacThru技术获得更高的精度和安全性。外科医生可以通过机器人获得增强的触觉反馈,同时保持清晰的视野;康复设备可以更好地感知患者的运动状态,提供个性化的训练支持。

特别值得注意的是,TacThru技术对于处理软质、薄质物品的能力填补了机器人应用的一个重要空白。纺织工业、食品包装、生物医学材料处理等领域都涉及大量软质材料的操作,传统机器人在这些场景中表现不佳,而TacThru的透视能力和触觉敏感度的结合为这些应用提供了理想的解决方案。

说到底,TacThru代表的不仅仅是一项技术进步,更是机器人感知能力向人类水平迈进的重要一步。当机器人能够像人类一样同时使用视觉和触觉来理解和操作世界时,它们就真正具备了在复杂环境中独立工作的能力。这项技术的成功验证表明,通过巧妙的工程设计和先进的学习算法,机器人正在快速获得更加类人的感知和操作能力。

对于普通人而言,这意味着在不远的将来,我们可能会看到更多能够胜任精细工作的机器人助手。它们不再是只会重复简单动作的机械装置,而是能够适应复杂情况、学习新技能的智能伙伴。TacThru技术的开源特性和与现有制造流程的兼容性,也意味着这种进步可能比我们想象的更快地从实验室走向日常生活。

研究团队在论文最后提到,未来的发展方向包括大规模数据收集、合成触觉仿真,以及探索更加复杂的灵巧操作任务。这暗示着TacThru只是一个开始,更多令人兴奋的突破正在路上。有兴趣的读者可以通过访问项目网站https://tacthru.yuyang.li了解更多技术细节,或者查阅完整的学术论文进行深入研究。

Q&A

Q1:TacThru传感器是什么,它和普通机器人传感器有什么不同?

A:TacThru是一种革命性的机器人传感器,最大特点是使用完全透明的弹性材料,让机器人能够同时进行视觉观察和触觉感知。普通传感器只能"看"或者只能"摸",而TacThru就像给机器人装上了既能看又能摸的"透明皮肤",大大提升了操作精度。

Q2:关键线标记技术是如何解决背景干扰问题的?

A:关键线标记采用黑白双色同心圆设计,内圈黑色、外圈白色。无论背景是什么颜色,总有一种颜色的圆圈能够清晰可见,确保标记追踪不会失败。这就像给每个追踪点戴上了能在任何环境下都发光的"光环"。

Q3:TacThru技术能处理哪些传统机器人无法完成的任务?

A:TacThru特别擅长处理软薄物品(如纸巾)、需要精细视觉识别的小物件(如螺栓分拣),以及需要毫米级精度的插入操作。它还能让机器人学会根据情况自动选择视觉或触觉引导策略,这是传统单一感官系统无法实现的。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-