要让机器人真正像人一样干活,光会用两根"筷子"夹东西可远远不够。我们的双手能拧瓶盖、能弹钢琴、能用筷子夹花生米,这些精细动作背后藏着难以想象的复杂协调。机器人领域的研究者们一直在追逐这个目标——让机器装上一双"灵巧手",去完成那些两指夹爪永远做不到的事。但问题来了:怎么知道一只机器手到底有多"灵巧"?这就需要一套标准化的"考试系统"。
这项由中国科学院自动化研究所(NLPR & MAIS)牵头,联合上海交通大学、阿联酋穆罕默德·本·扎耶德人工智能大学(MBZUAI)、北京基础医学研究所、北京大学与银河通用、香港中文大学等多家机构共同完成的研究,于2026年5月发布在arXiv预印本平台,论文编号为arXiv:2605.16257v1。研究团队提出了一个名为DexJoCo的灵巧手操作基准测试平台,感兴趣的读者可以通过这个编号查阅完整论文,或访问项目主页dexjoco.github.io了解更多。
下面我们就来看看,这套"机器手奥林匹克竞技场"是怎么设计的,以及当前那些号称智能的机器人模型,在面对真正的"人类级"任务时,到底表现如何。
一、为什么我们需要一座"灵巧手考场"
在聊这项研究之前,先想象这样一个场景。假设你是一位驾校教练,要评估学员的开车水平。如果你只让他们在空旷的停车场里直线行驶,那永远评不出真正的高手——因为没有红绿灯、没有行人、没有侧方停车,所有人看起来都差不多。要真正区分新手和老司机,你得设计真实路况的考试:城市道路、山路、雨天、夜间……
机器人灵巧手的研究也面临同样的窘境。研究团队指出,现有的评测体系存在几个明显的"考题缺陷"。
很多研究为了简化问题,把机械臂去掉了,只让一只悬空的手在做动作。这就好比让学员坐在飞起来的座椅上学开车,看起来动作做完了,但根本没法搬到真实公路上。另一个问题是,现有的考题要么是"在手里转个魔方"这类纯粹的手指动作,要么就是"把方块从A挪到B"这种连普通夹爪都能完成的简单任务。前者太单一,后者根本体现不出灵巧手的优势——你用两根筷子也能挪方块,何必造一只五指手?
更现实的麻烦在于数据采集。机器人学习需要"教学视频"——也就是人类演示如何完成任务的轨迹数据。但灵巧手有几十个自由度(关节),就像一个交响乐团里几十种乐器要协调演奏,传统的运动规划算法搞不定,强化学习生成的动作又往往看起来怪异不自然。最后一个槽点是,现有的灵巧手数据集格式五花八门,语言指令也没有统一标准,让那些火热的视觉-语言-动作大模型(业内称为VLA模型,就是那种能看图听话做动作的AI)很难直接拿来训练评估。
正是这些痛点,催生了DexJoCo这个项目。它的目标很明确:打造一套真正能体现灵巧手独特能力的"考试系统",配上趁手的"数据采集工具箱",再附赠一套包含1100条人类演示轨迹的"标准答案"。
二、考场设计:11道精心打磨的"奥赛真题"
DexJoCo建立在MuJoCo物理引擎之上,这是机器人学界公认精确可靠的"虚拟实验室"。研究团队选用的硬件配置也都是业界标配——Rethink Robotics的底座、Franka Panda机械臂,再加上Allegro灵巧手。这种组合就像一台标配的家用轿车,大家都熟悉,便于横向比较。
整个考场提供丰富的"感知信息",包括第三视角和手腕视角的彩色及深度图像、场景中物体的位置姿态、机器人自身的运动状态、末端执行器的位置以及手部各关节的角度。当机器人执行动作时,机械臂的指令是"目标末端位置",手部的指令是"目标关节角度"——简单说,就是告诉机器手"该把手腕摆到哪里"以及"每根手指该弯多少"。
研究团队设计任务时遵循了四条核心原则。每个任务都得有"功能意义",不能只是把东西从这边搬到那边,而要像日常生活中真实存在的活动一样。每个任务必须"非灵巧手不可",也就是说,普通夹爪根本完成不了。任务还得有"长程组合性",需要分步骤、按顺序完成多个子目标。最后一部分任务要求"双手协作",两只手分别承担不同的功能角色。
按照这些原则,11个任务被精心设计出来。在浇花任务中,机器人要抓起喷壶,按下手柄把水喷到植物上——这里有个巧妙设计,当喷壶手柄被按到一定程度时,画面里会出现水滴,让任务进度一目了然。折叠眼镜任务要把眼镜腿合拢后放进眼镜盒。点击鼠标任务里,机器人得先把鼠标推到紫色鼠标垫上,再用一根手指精确按下左键,按对了显示器就会亮起来。捏夹钳任务要求抓住夹钳后做三次连续的开合动作。提水桶任务先要把食物盒放进水桶再提起来。锤钉子任务则是用锤子把钉子敲进木板。
双手协作的任务难度更上一层。微波炉烹饪任务里,机器人要先打开微波炉门,把食物放进去,关上门,再按启动按钮——四个步骤环环相扣。解锁iPad任务要抓起iPad输入密码"123"才能解锁,这考验的是手指的精确按压能力。汉诺塔任务要执行三层汉诺塔的最后两步:右手把中柱上的中盘移到右柱,左手再把左柱的小盘移到右柱——这不仅考动作,还考"理解游戏规则"的推理能力。装配任务是左手拿托盘、右手拿插销,把插销插进托盘的孔里。拍照任务要求左手拿相机对准logo,右手按下快门。
每个任务都内嵌了"成功判定条件",包括动作顺序、物体最终位置、关节状态以及接触情况。只有所有条件同时满足,这道"考题"才算答对。研究团队还特别强调,这些任务的搭建成本很低,方便后续扩展更多新任务。
三、数据采集神器:花2300美元打造的"动作捕捉工作站"
要让机器人学会这些复杂动作,得有人先演示给它看。但人手和机器手结构完全不同——人有27个自由度的复杂关节,Allegro机器手只有16个,硬要一对一映射就像把交响乐谱硬塞给只有几个键的玩具琴,根本演不出来。
研究团队搭建的数据采集系统在控制成本上做了精心权衡。手部动作用Rokoko智能手套捕捉,这种手套内置传感器,能直接读取手指关节信息,避开了摄像头方案里常见的"手指挡住手指"的遮挡难题。手腕的空间位置则用两个HTC Vive追踪器配合两个基站完成,类似VR游戏里追踪手柄的那套技术。整套硬件加起来约2300美元,相比动辄上万的专业动作捕捉系统已经非常亲民。研究团队还自己3D打印了一个小连接件,把追踪器和手套整合成一个统一的装置,戴起来更方便。
光有硬件还不够,关键是怎么把人手动作"翻译"成机器手指令。这里用到了一种叫GeoRT的自监督重定向算法,它就像一个聪明的同声传译,不需要事先准备人手和机器手的对照表,而是通过几个巧妙的目标函数自己学会翻译规则。这些目标包括:让手指运动方向保持一致,让机器手能够到尽可能大的工作空间,让翻译的灵敏度均匀分布,特别保留人类常用的"捏取"动作模式,以及避免机器手指头互相撞到一起。
手腕追踪则简单得多。研究者把追踪器固定在手腕上,先记录一个"起始姿态"作为参考,之后人手每动一下,系统就把这个相对位移传给机器人末端执行器去复现。这样一来,整个teleoperation(远程操作)系统就能高频、精准地把人的动作搬到虚拟机器人身上。
四、考场的"恶劣天气模式":让模型经受真实考验
只在标准考场里答题还不够,真实世界充满变数。DexJoCo提供了一套"环境随机化"功能,让训练好的模型经受各种干扰。
物体的初始位置可以在桌面上随机变化,桌子高度也能在5厘米范围内浮动。视觉方面,第三视角的相机位置可以从一个预先选好的50个位姿池中随机抽取——研究团队把摄像头位置均匀撒在一个球面上,然后挑出50个遮挡最少的视角。场景光照的方向和颜色也会随机变化,每盏灯的位置在水平面上随机偏移,方向有小幅度抖动,灯光颜色在一定范围内随机采样。桌面纹理则从一个预先准备的素材库中随机选取,可能是木纹、可能是大理石、可能是其他材质。
更巧妙的是,这些视觉变化可以通过"回放"已有轨迹来生成新数据,不需要重新采集——就像同一段表演用不同的舞台灯光重新录像,省时又省力。
除了视觉变化,物理参数也能随机化。比如锤子的质量在原始值的0.75到1.25倍之间浮动,夹钳的关节摩擦力会随机变化,眼镜的关节刚度也会调整。每个任务都有专属的随机化设置,让模型在面对"质量稍重的水桶"或"摩擦更大的微波炉门"时也能应对。
五、四位"考生"上场:当今最强模型的真实战力
研究团队选了四款代表性的机器人策略模型来参加这场"考试"。
ACT是一种基于条件变分自编码器的方法,从零开始训练,只用视觉和本体感觉信息。Diffusion Policy(扩散策略)有两个版本,分别用Transformer架构(DP-T)和CNN架构(DP-C),通过扩散模型生成动作,同样是从头训练。π0.5是一个基于流匹配的大型VLA模型,预训练规模庞大,能听懂语言指令,研究中通过LoRA低秩适配技术做微调。GR00T N1.5是英伟达发布的另一款VLA大模型,同样支持语言条件。
由于π0.5和GR00T N1.5原本的动作输出维度只有32维,不够双手任务用,研究团队保留了预训练权重,对超出部分的动作维度做了随机初始化。
所有模型都采用"动作分块"的预测方式:根据若干帧历史观察和可选的语言指令,一次性预测未来k步的动作序列。模型部署时使用异步推理机制——当前动作还在执行,下一个动作块就已经在生成,避免空等。重叠的部分通过时间集成做平滑过渡。这种机制让轻量级模型的优势特别明显,因为它们推理快、能更频繁地"看一眼"环境变化,反应更灵敏。
六、考试成绩单:没有一个全能冠军
这场考试的结果相当有意思,可以说没有一位"考生"称得上全能选手。
在只随机化物体位置的较简单设置下,π0.5以52.5%的平均成功率拿到最高分,其次是DP-T的50.4%、DP-C的47.6%、GR00T N1.5的40.2%、ACT的35.5%。但当切换到"全随机化"模式(同时随机摄像头、光照、纹理、桌高)时,所有模型的成绩都断崖式下跌。π0.5降到34.1%,DP-C只剩28.4%,GR00T N1.5为30.5%,DP-T暴跌到20.0%,ACT为22.7%。这清楚说明,目前的模型对视觉变化的鲁棒性还很有限。
细看单项表现更有看头。π0.5依靠大规模预训练,在单臂任务上几乎全面领先,比如浇花任务能做到88.7%、折叠眼镜72.0%、提水桶84.0%。但在双手任务上,它的优势就消失了——汉诺塔只有15.3%,装配仅5.3%,解锁iPad只有12.0%。研究者推测这是因为π0.5的额外动作维度要从头训练,预训练带来的优势在双手任务上被抵消了。
更有趣的是DP-C的表现。这个用CNN加FiLM条件注入的"老派"架构,在某些精细任务上反而超过了所有大模型。它在解锁iPad上达到52.0%,在捏夹钳上达到57.3%,远远甩开其他模型。研究团队分析,DP-C是唯一使用FiLM(一种特征级线性调制技术)做观察信息注入的模型,而不是用自注意力或交叉注意力机制。FiLM可能在细粒度视觉感知上有独特优势,让它在按按钮、捏夹钳这种需要精确操作的任务上特别在行。
七、典型"翻车现场":模型们到底栽在哪
研究团队对π0.5和DP-C分别做了550次评估(每个任务50次),细致统计了失败原因,这就像考完试翻看错题本,能精准找到知识盲区。
最常见的失败是"拾取放置"环节出错——π0.5在259次失败中占了58次,DP-C在297次失败中占了136次。但更值得关注的是"精确操作失败"——π0.5有144次,DP-C有103次。这类失败包括按按钮没按到、插入对不准、按下后没松开等。
具体的失败场景非常生动。在按按钮类任务(解锁iPad、点击鼠标、拍照)中,模型能成功拿起iPad或相机,能把鼠标推到鼠标垫上,但就是按不到正确的按钮——它们能看到物体,却没注意到物体上那些可交互的小部件。在装配和汉诺塔这种需要"插入"的任务中,错位是高频失败原因。捏夹钳任务里,模型经常抓住了夹钳却不会做开合动作,研究者猜测这可能是时间记忆不足导致的——模型记不住自己刚才做到哪一步了。微波炉任务里出现过一个搞笑现象:模型把热狗放进微波炉,但缩手的时候又把热狗带出来了。
八、深入实验:多任务训练、动力学随机化、动作头适配
研究团队还做了几组深入对照实验。
在多任务联合训练实验中(用相同的训练步数同时训练所有任务),DP-T的成绩全面下滑,平均从50.4%跌到33.2%。π0.5也整体下降到45.5%,但在点击鼠标和捏夹钳两个任务上反而提升了。这说明小模型容易在多任务学习中"顾此失彼",而大模型有一定的任务间知识迁移能力,但也并非总是受益。
动力学随机化实验中(关节摩擦、刚度、物体质量都会变),π0.5的平均成功率为46.5%,依然高于DP-T的41.6%。这印证了π0.5在面对物理参数变化时的鲁棒性更好,也说明这套仿真基准能反映出模型在不同物理条件下的真实能力差异,可作为评估真实世界表现的参考。
动作头适配实验对比了两种策略:保留π0.5的预训练动作头权重然后随机初始化额外维度,与完全重新随机初始化整个动作头。结果显示保留预训练权重的版本平均成绩48.7%,略高于全随机初始化的46.5%。这说明保留预训练知识确实有帮助,哪怕只是部分保留。
九、语言理解的尴尬:VLA模型并不真懂你在说什么
研究团队设计了一个特别有意思的实验来检测VLA模型是否真的"理解语言"。他们让π0.5在解锁iPad任务上只学习单个数字密码(1到5),然后测试三种情况:见过的数字(1、2、4)、算术表达式("1+1"、"2+2")、英文单词("two"、"one plus one")。
结果让人有点失望。模型表现出严重的"模式塌缩"——不管你给它什么指令,它输出"2"的概率始终维持在30%左右。表面上看,"two"指令下的精确度有30.0%、"1+1"下有24.7%,似乎不错,但这其实是统计假象。模型在见过的数字"4"上反而只有4.0%的精度,因为它倔强地总输出"2"或"3"。
研究者用卡方检验确实拒绝了"指令和输出完全独立"的假设(p值2.15×10??),说明模型对不同指令确实有反应。但归一化互信息只有0.018,所有指令对之间的JS散度平均只有0.026,最大也只有0.057。这些数字说明模型对语言的反应微乎其微,根本谈不上真正的语言泛化能力。它更像是被训练数据里的某些动作模式"绑架"了,习惯性地输出固定动作。
这对我们意味着什么呢?说明当前那些号称"视觉-语言-动作一体化"的大模型,在面对灵巧手任务时,语言部分的能力远没有想象中强大。它们更多是在做"视觉-动作"映射,语言只是个装饰。
十、四个值得思考的问题
通过这场全方位的"考试",研究团队归纳出当前灵巧手研究面临的几个核心挑战。
当前的VLA基础模型主要是在两指夹爪数据上预训练的,搬到灵巧手上时存在严重的"动作空间不匹配"问题。夹爪只需要控制一个开合度,灵巧手却有十几个关节需要协调,原本的动作头根本捕捉不了这种高维度的关节耦合关系。未来需要专门为灵巧手设计的、以"手"为中心的预训练表征。
只依赖视觉的策略在接触密集型任务中力不从心。当机器手开始与物体接触,光看摄像头是不够的——你按按钮按到了没有?力道够不够?这些信息只能通过触觉感知。未来的灵巧手策略可能需要整合触觉、视觉、本体感觉等多模态信息。
研究团队也坦承,这次工作还没有解决一个重要问题——仿真到真实世界的迁移。提升仿真在物理、视觉、感知层面的真实度,能让虚拟训练的策略更好地零样本迁移到真实机器人,这需要超越简单的域随机化,进行更系统的仿真-现实对齐研究。
说到底,这项研究最大的价值在于它建立了一座"标准化考场",让全世界的研究者都能在同一套规则下比试他们的算法。它揭示了一个让人清醒的现实:尽管我们已经有了能听懂指令的大模型、能生成流畅动作的扩散策略,但要让机器手真正达到"人类水平",前面的路还很长。当前的明星模型在按按钮、插积木、做精细动作时都会"翻车",它们的语言理解能力也远没有宣传得那么强。
归根结底,DexJoCo不只是一套测试题,更是一面镜子,照出了灵巧手智能研究的真实水平。它告诉我们,下次再看到"AI机器人能做家务"的新闻时,不妨多一份审慎——能在演示视频里完成的事,未必能在严格考场上稳定通过。但同时,这种严格的评估也是进步的起点,没有清晰的标尺,就不会有真正的突破。
对于普通人来说,这项研究意味着家用灵巧手机器人离我们还有距离,但已经能看到雏形。或许再过几年,当某个团队的模型能在DexJoCo上做到90%以上的成功率时,我们就真的能盼到那个会用筷子夹菜、会按遥控器、会折衣服的家庭助手了。
有兴趣深入了解的读者可以通过arXiv:2605.16257v1查询完整论文,或者访问项目主页dexjoco.github.io。研究团队开放了完整的数据集、工具和代码,欢迎所有对灵巧手感兴趣的研究者一起来"答题"。
Q&A
Q1:DexJoCo和其他灵巧手基准测试相比有什么独特之处?
A:DexJoCo最大的特点是任务设计紧贴真实生活场景。它的11个任务包括浇花、按鼠标、折眼镜、用微波炉、玩汉诺塔等,这些任务必须用灵巧手才能完成,普通两指夹爪根本搞不定。同时它支持双手协作、长流程操作和推理任务,还配有低成本的数据采集硬件和1100条人类演示轨迹,并提供了视觉和动力学随机化功能用于测试模型鲁棒性。
Q2:当前最先进的机器人模型在DexJoCo上表现如何?
A:表现不算理想。在简单设置下最强的π0.5平均成功率只有52.5%,加入视觉随机化后跌到34.1%。大模型在单臂任务上有优势但双手任务表现差,比如解锁iPad只有12.0%、装配任务只有5.3%。有趣的是用FiLM架构的小模型DP-C在按按钮、捏夹钳这类精确操作上反而超过了所有大模型。失败原因主要集中在按按钮按不准、插入对不齐和动作记忆不足。
Q3:DexJoCo数据采集系统大概需要多少钱?
A:整套硬件约2300美元。主要包括Rokoko智能手套用于捕捉手部动作(避免摄像头方案的遮挡问题),两个HTC Vive追踪器加两个基站用于追踪手腕位置,再加一个自己3D打印的连接件把这些设备整合起来。配合自监督的GeoRT重定向算法,可以把人手动作高频、精准地翻译成机器手指令,相比专业动作捕捉系统便宜很多,普通实验室也能负担得起。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。