这项由字节跳动种子团队的田佳文、黄立群、崔忠仁、乔景超、徐佳峰、马晓、任泽宇等研究人员共同完成的研究发表于2025年9月,论文编号为arXiv:2509.18084v2。有兴趣深入了解的读者可以通过该编号查询完整论文。
当我们伸手去够橱柜深处的杯子,或者在狭窄的空间里拧螺丝时,我们的手腕会自然地扭转、弯曲,配合手臂完成各种复杂动作。这种看似简单的能力,对机器人来说却是一个巨大的挑战。传统的机器人手腕就像一个笨拙的关节,要么太大太重,要么不够灵活,在狭窄空间里经常撞到障碍物。
字节跳动的研究团队决心解决这个问题。他们观察到,无论是家庭服务、医疗手术还是精密装配,机器人都需要在狭窄、复杂的环境中工作。现有的机器人手腕设计就像用铁棍代替人的手腕一样,虽然结实但缺乏必要的灵活性。研究团队提出了一个大胆的想法:能否设计出一款既紧凑又灵活的机器人手腕,让机器人在狭窄空间中也能像人一样自如操作?
经过深入研究,他们开发出了ByteWrist——一款革命性的并联机器人手腕。这个设计的巧妙之处在于采用了三层嵌套的驱动机制,就像俄罗斯套娃一样,每一层都有自己的电机,但整体结构却非常紧凑。更有趣的是,他们还设计了弧形的连接杆,这些连接杆就像人体关节中的韧带一样,不仅传递力量,还能扩大运动范围。
为了验证ByteWrist的实际效果,研究团队将其集成到了他们的双臂机器人ByteMini上。这台机器人拥有22个自由度,包括7自由度的手臂、1自由度的夹爪、1自由度的腰部升降机构、3自由度的全向移动底盘,以及2自由度的头部。整个系统由戴尔T3280计算机控制,配备4.08千瓦时的电池供电。
一、手腕结构的精妙设计
ByteWrist的设计理念可以用搭积木来类比。传统的机器人手腕就像用长条积木一个接一个地连接,虽然简单但容易倒塌,而且占用空间很大。ByteWrist则采用了完全不同的思路,它更像是一个精密的机械钟表,所有部件都围绕中心巧妙地排列。
整个手腕由三个同心圆排列的电机驱动。第一级电机位于最外层,它的输出轴连接到第一级驱动杆,这根驱动杆通过弧形连接件与平台相连。第二级电机巧妙地安装在第一级驱动杆内部,就像套娃一样,它的输出连接到第二级驱动杆。第三级电机则安装在第二级驱动杆内部,形成了三层嵌套的结构。
这种设计的巧妙之处在于弧形连接件。如果把传统的直线连接比作僵硬的木棍,那么弧形连接件就像柔韧的竹子,既能传递力量,又能提供更大的弯曲空间。每个弧形连接件都是90度的弧形,加上两端的直线段,形成了一个优雅的曲线结构。
为了增强整个系统的稳定性,研究团队在平台中心放置了一个支撑球,这个球通过球形关节与平台连接。这就像在一个三脚架的中心再加一根支撑杆,大大提高了结构的刚性,同时又不影响灵活性。
通过控制三个电机的运动,平台可以实现精确的翻滚、俯仰和偏航运动,就像人的手腕一样灵活。整个设计的关键参数包括:第一层旋转半径27.35毫米,第二层旋转半径30毫米,两层之间的距离27.35毫米,弧形连接件的半径25毫米。
二、运动学建模的数学基础
要让ByteWrist精确运动,就必须建立精确的数学模型,这就像为一个复杂的舞蹈编排精确的舞谱。研究团队需要解决两个核心问题:正向运动学和逆向运动学。
正向运动学就像问"如果我让三个电机分别转动特定角度,手腕平台会转到什么位置?"这个问题看似简单,实际上涉及复杂的几何计算。研究团队首先建立了坐标系统,将整个手腕的运动分解为可计算的几何关系。
他们定义了六个关键点:P1、P2、P3位于弧形连接件与驱动杆的连接轴上,P4、P5、P6位于弧形连接件与平台的连接轴上。这些点的位置关系就像星座中星星的相对位置一样,通过数学公式可以精确描述。
当三个驱动杆转动到特定角度时,弧形连接件会绕着特定轴线旋转。研究团队通过几何分析,建立了驱动角度与平台姿态之间的数学关系。由于这些方程是非线性的,他们采用了牛顿-拉夫逊迭代法来求解,这种方法就像逐步逼近目标的射箭练习,每次调整都让结果更接近真实值。
逆向运动学则是相反的问题:"如果我想让平台转到特定姿态,三个电机应该转动多少角度?"这个问题对于机器人控制至关重要,因为操作者通常知道想要的最终姿态,需要系统自动计算出电机的控制指令。
为了实现精确控制,研究团队还需要计算雅可比矩阵,这个矩阵描述了电机角度的微小变化如何影响平台姿态的变化。他们采用数值方法计算雅可比矩阵,通过大量测试确定最优的步长为0.001弧度,这个步长在计算精度和数值稳定性之间取得了最佳平衡。
三、运动范围与性能验证
为了验证ByteWrist的实际性能,研究团队设计了一系列严格的测试。首先是运动范围测试,他们让手腕沿着一个圆形轨迹运动,这个轨迹的半径接近手腕的最大运动能力。
测试结果显示,ByteWrist可以在满足约束条件β²+γ²<0.72的范围内自由运动,其中β代表俯仰角,γ代表翻滚角。为了直观展示这个能力,研究团队让手腕沿着β²+γ²=0.68的圆形轨迹运动,同时保持偏航角为零。
在不同的运动速度下,手腕表现出了良好的跟踪性能。当运动周期为4秒时,跟踪误差仅为0.064弧度;当周期缩短到2秒时,误差增加到0.127弧度;而在高速运动(周期1秒)时,误差达到0.247弧度。这种误差主要来自通信延迟和计算延迟,约为0.06秒。
这些测试结果表明,ByteWrist在低速精密操作中表现优异,在高速动态应用中需要考虑延迟补偿。对于大多数实际应用场景,如家庭服务和精密装配,这样的性能已经完全满足需求。
四、狭窄空间操作能力对比
为了验证ByteWrist在实际应用中的优势,研究团队设计了一个极具挑战性的对比实验。他们制作了一个透明的手套箱,尺寸为1000×500×600毫米,前面板上有两个直径200毫米的操作孔,孔心距离500毫米。这个设计模拟了现实中的狭窄操作环境,比如橱柜内部或设备维修空间。
在手套箱内部,研究团队放置了九个不同的抓取目标:一个塑料娃娃、一只毛绒熊、一朵浴花,以及六个甜甜圈玩具。这些物品被故意放置在不同的位置,有些靠近操作孔,有些则位于箱子深处的角落,形成了不同难度等级的抓取挑战。
实验规则很简单:机器人需要将双臂伸入手套箱,抓取所有九个物品并放入蓝色收纳篮中。每次抓取完成后,机器人手臂必须返回初始位置,然后开始下一个抓取任务。整个过程中,机器人的腰部和移动底盘保持固定,只能依靠手臂和手腕的灵活性完成任务。
搭载ByteWrist的ByteMini机器人在这个测试中表现出色。它成功抓取了所有九个物品,总用时234秒。具体来说,抓取塑料娃娃用时20秒,毛绒熊49秒,浴花21秒,六个甜甜圈玩具分别用时22、38、23、17、27、17秒。
为了对比,研究团队使用了配备Kinova Gen3机械臂的双臂机器人进行相同测试。Kinova Gen3同样采用7自由度SRS配置,但手腕部分使用传统的串联结构。结果显示,Kinova机器人虽然也能完成所有抓取任务,但总用时达到476秒,几乎是ByteMini的两倍。
分析Kinova机器人用时较长的原因,主要有三个方面。首先是手臂角度调整幅度更大。由于串联手腕的旋转范围限制,Kinova机器人在抓取某些物品时需要将整个前臂退出手套箱,调整姿态后再重新进入,这个过程非常耗时。其次是夹爪相机位置问题。Kinova机器人的夹爪相机在某些抓取动作中会与手套箱内壁发生碰撞,必须先将相机移出箱外才能继续操作。最后是轻微碰撞的影响。由于前臂较长且采用串联结构,Kinova机器人在操作过程中偶尔会与手套箱发生碰撞,需要时间调整和恢复。
这个对比实验清楚地展示了ByteWrist在狭窄空间操作中的显著优势。其紧凑的设计和灵活的运动能力,使机器人能够在受限环境中更加高效地工作。
五、双臂协作与柔性物体操作
ByteWrist的真正价值在复杂的双臂协作任务中得到了充分体现。研究团队将ByteMini机器人应用于GR-3大规模视觉-语言-动作模型的数据收集和模型验证中。GR-3是一个先进的人工智能模型,专门用于理解和执行复杂的机器人操作任务。
在这个应用中,ByteMini需要完成一个极具挑战性的任务:给衣服穿上衣架并挂到横杆上。这个看似简单的日常动作,对机器人来说却是一个综合性的挑战,需要精确的双臂协调、对柔性物体的精细操作,以及在胸前狭窄空间内的灵活运动。
整个操作过程包含多个连续步骤。首先,机器人用左手夹爪抓取衣架,这需要精确的力度控制,既要抓稳衣架,又不能损坏它。接着,两只手臂需要协调配合,将衣服的左肩部分套到衣架上。这个步骤特别困难,因为衣服是柔性的,会随着机器人的动作发生变形,而且操作空间位于机器人胸前,手臂活动范围受限。
完成左肩穿戴后,机器人需要将衣架从左手转移到右手,这个交接动作需要两只手臂在狭小空间内精确配合。然后,机器人继续用双臂协作,将衣服的右肩部分也套到衣架上。最后,机器人需要抓起整个衣服-衣架组合体,将其挂到横杆上。
在这个复杂的操作过程中,ByteWrist的优势得到了充分发挥。其紧凑的设计使得两只手臂可以在胸前狭窄的空间内灵活运动,而不会相互干扰。高精度的运动控制确保了对柔性衣物的精细操作,避免了拉扯或损坏。强大的结构刚性保证了在处理衣架重量时的稳定性。
更重要的是,ByteMini机器人不仅成功完成了这个任务,还参与了长达116小时的数据收集工作。这些数据被用于训练GR-3模型,使其能够学习和理解复杂的机器人操作技能。经过训练后,GR-3模型已经能够指导机器人完全自主地完成衣服挂装任务,无需人工干预。
整个操作过程展现出了显著的拟人化特征。机器人的动作流畅自然,就像一个熟练的人在整理衣物一样。这种拟人化不仅提高了操作效率,也使机器人更容易被人类接受和信任。
六、技术创新与突破
ByteWrist的成功不是偶然的,它代表了机器人手腕设计领域的几个重要突破。首先是结构创新,三层嵌套的并联驱动机制是一个全新的设计理念。传统的并联机构通常将所有驱动器放置在基座上,通过长杆传递动力,这种设计虽然刚性好,但体积大。ByteWrist将驱动器分层嵌套,每层负责一个自由度,大大减少了整体体积。
其次是弧形连接杆的应用。大多数并联机构使用直线连接杆,这种设计简单但限制了运动范围。ByteWrist采用弧形连接杆,不仅优化了力传递路径,还扩大了有效运动范围。这种设计灵感来自于人体关节的生物力学原理,体现了仿生学在机器人设计中的应用。
第三个创新是中心支撑球的设计。这个看似简单的组件实际上起到了关键作用,它通过球形关节与平台连接,在不影响灵活性的前提下显著提高了结构刚性。这种设计解决了并联机构中常见的刚性不足问题。
在控制算法方面,研究团队也有重要贡献。他们开发的数值雅可比矩阵求解方法,通过优化步长选择,在计算精度和数值稳定性之间找到了最佳平衡。这种方法为类似的并联机构控制提供了有价值的参考。
运动学建模的完整性也是一个重要成就。研究团队不仅建立了正向和逆向运动学模型,还通过大量仿真验证了模型的准确性。这些模型为ByteWrist的精确控制奠定了坚实的理论基础。
七、性能优势与应用前景
通过全面的实验验证,ByteWrist展现出了多方面的性能优势。在紧凑性方面,其体积比传统串联手腕减少了约40%,这使得机器人能够在更狭窄的空间中工作。在刚性方面,并联结构和中心支撑球的设计使其承载能力比同体积的串联手腕提高了约60%。
在运动精度方面,ByteWrist在低速操作中的定位误差小于0.1毫米,完全满足精密装配的要求。在动态响应方面,虽然存在约0.06秒的延迟,但对于大多数应用场景来说是可以接受的。
ByteWrist的应用前景非常广阔。在家庭服务领域,它可以帮助机器人在狭窄的橱柜中整理物品,在紧凑的厨房空间中协助烹饪。在医疗领域,其精确的运动控制和紧凑的设计使其非常适合微创手术和康复治疗设备。在工业制造领域,它可以用于精密装配、质量检测和维护作业。
特别值得关注的是其在人机协作中的潜力。ByteWrist的拟人化运动特征使得人类更容易理解和预测机器人的行为,这对于安全的人机协作至关重要。随着协作机器人市场的快速发展,这种特性将变得越来越重要。
在未来的发展中,研究团队计划进一步优化结构参数以扩大运动范围,同时探索更轻量化的设计和更可靠的电气布线方案。这些改进将使ByteWrist在更多应用场景中发挥作用。
说到底,ByteWrist不仅仅是一个技术产品,更代表了机器人技术发展的一个重要方向。它证明了通过创新设计和精密工程,我们可以让机器人变得更加灵活、高效和人性化。随着这种技术的不断完善和推广,我们有理由相信,未来的机器人将能够更好地融入我们的日常生活,成为真正有用的助手和伙伴。
这项研究的成功也体现了跨学科合作的重要性。机械设计、控制理论、计算机科学和人工智能的结合,创造出了这样一个优秀的产品。这为未来的机器人研究提供了宝贵的经验和启示。
Q&A
Q1:ByteWrist相比传统机器人手腕有什么优势?
A:ByteWrist采用三层嵌套的并联驱动机制,体积比传统串联手腕减少约40%,承载能力提高约60%,定位误差小于0.1毫米。在狭窄空间操作实验中,搭载ByteWrist的机器人完成任务的时间比传统Kinova机器人快一倍,展现出更高的灵活性和效率。
Q2:ByteWrist能应用在哪些实际场景中?
A:ByteWrist适用于家庭服务(橱柜整理、厨房协助)、医疗领域(微创手术、康复治疗)、工业制造(精密装配、质量检测)等多个场景。特别是在需要双臂协作和精细操作的任务中表现优异,如衣物整理等日常生活场景。
Q3:ByteWrist的运动范围和精度如何?
A:ByteWrist可在β²+γ²<0.72的约束范围内自由运动,在低速操作中定位误差小于0.1毫米。在不同运动速度下,当周期为4秒时跟踪误差仅0.064弧度,完全满足精密操作需求。系统存在约0.06秒的通信和计算延迟,但不影响大多数实际应用。
好文章,需要你的鼓励
Queen's大学研究团队提出结构化智能体软件工程框架SASE,重新定义人机协作模式。该框架将程序员角色从代码编写者转变为AI团队指挥者,建立双向咨询机制和标准化文档系统,解决AI编程中的质量控制难题,为软件工程向智能化协作时代转型提供系统性解决方案。
西北工业大学与中山大学合作开发了首个超声专用AI视觉语言模型EchoVLM,通过收集15家医院20万病例和147万超声图像,采用专家混合架构,实现了比通用AI模型准确率提升10分以上的突破。该系统能自动生成超声报告、进行诊断分析和回答专业问题,为医生提供智能辅助,推动医疗AI向专业化发展。
上海AI实验室团队发现自回归图像生成模型存在局部依赖、语义不一致和空间不变性缺失三大问题,提出ST-AR训练方法。该方法通过掩码注意力、跨步骤对比学习和跨视角对比学习,让AI"先理解再生成"。实验显示,ST-AR将LlamaGen模型的图像理解准确率提升一倍以上,图像生成质量提升42-49%,为构建更智能的多模态AI系统开辟新路径。