微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

上海交大与TARS机器人联合攻关：机器人手臂终于能像人手一样流畅运动了

机器人控制变分自编码器高频动作学习

上海交大与TARS机器人联合攻关：机器人手臂终于能像人手一样流畅运动了

作者：科技行者

2026-06-02 09:34

分享至：

上海交大与TARS等机构联合提出潜空间高频动作学习方案，让机器人手臂摆脱走走停停困境，通过VAE压缩动作骨架并配合RTR衔接策略，大幅提升动作流畅性与任务成功率。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-06-02 09:34 • 科技行者

这项由上海交通大学计算机科学学院与TARS Robotics联合完成的研究，于2026年发表在第43届国际机器学习大会（ICML 2026，Seoul, South Korea, PMLR 306），论文编号为arXiv:2605.24931。参与机构还包括新加坡国立大学、中国科学院自动化研究所和复旦大学。

你有没有注意过，工厂里的机械臂在执行任务时，常常会停顿一下、动一下，再停顿一下，像是一个人走路突然反复踩刹车的感觉？这种"走走停停"的现象不仅看起来别扭，在需要精细操作的任务里还会带来严重问题。焊接、切割、涂胶、甚至给黄瓜削皮——任何需要连贯手部动作的场景，机器人一旦频繁停顿，轻则任务失败，重则损坏设备。

这支研究团队盯上的，正是这个让机器人动作"卡顿"的根源问题。他们给出的解决方案有些出人意料：与其让机器人直接学习具体怎么动，不如先教它学会"动作的精髓"，然后再把这种精髓还原成具体动作。这听起来有点像学钢琴时，先理解一段旋律的情感走向，再把手指落到键盘上——而不是死记每个音符。

这个思路被研究团队用变分自编码器（VAE，一种特殊的神经网络结构）实现出来，并配合一种叫做"先复用、再精修"（Reuse-then-Refine，简称RTR）的执行策略，最终让机器人手臂在完成削黄瓜、擦花瓶、写白板等接触性任务时，动作流畅程度大幅提升，停顿次数明显减少，整体速度也更快。

一、机器人动作为什么会"卡顿"？频率是关键

要理解这个问题，先来聊聊机器人是怎么"学动作"的。

在现有的主流方法中，研究人员会先让人类示范一遍任务，比如削黄瓜。摄像头和传感器记录下人手臂每个时刻的位置和姿态，这些数据就构成了"示范轨迹"。机器人通过模仿学习，从这些轨迹里总结出规律，之后遇到同样任务就按这个规律行动。

这个过程里，有一个关键参数叫做"动作频率"，也就是每秒记录多少个动作帧。频率低（比如每秒15帧，即15Hz）就像用老式胶卷相机拍视频，每帧之间间隔大，每个动作点之间的距离也大。机器人执行这种动作时，每完成一个目标点就必须先刹停，再加速奔向下一个目标点，如此反复，就产生了"走走停停"的效果。而频率高（比如每秒60帧，即60Hz），相当于用高速摄像机拍摄，帧与帧之间的间隔极小，每个动作点离上一个点都非常近，机器人就可以保持速度一路滑行过去，动作自然流畅。

研究团队专门做了一个对比实验来直观展示这一点：同一段手臂运动轨迹，用15Hz和60Hz分别记录并让机器人重放。15Hz版本需要5.31秒才能完成，途中速度多次跌落到接近零；60Hz版本只需1.05秒，速度始终稳定维持在120毫米/秒左右，几乎和人类示范时的连续动作（1.00秒）一模一样。

道理很简单：低频动作强迫机器人在每个动作点上"归零速度"，高频动作则允许它在保持速度的同时流畅过渡。要让机器人像人手一样连贯地运动，就得让它学习高频率的动作数据。

二、高频率动作好用，但偏偏很难学

既然高频率动作有这么多优势，为什么不是所有机器人都这么训练？问题在于，高频率动作看起来容易，学起来却难得多。

这里有一个很直觉的类比：假设你要背诵一首诗，低频版本只有10句，每句之间跨度大，意思跳跃，你可以抓住关键意象来记。高频版本有48句，每句都只比上一句稍微推进一点点，全诗在细微变化中缓缓展开。哪个更难背？显然是后者。细节太多、变化太微妙，大脑（或神经网络）很容易"迷失在细节里"，无法准确复现。

研究团队测试了三种当下最先进的机器人学习方法：扩散策略（Diffusion Policy，简称DP）、OpenVLA-OFT（简称OFT）和PI0.5。他们分别在15Hz和60Hz的数据上训练这三种方法，然后测量两个指标——"偏差"（预测动作和真实动作之间的距离，越小越好）和"抖动"（动作轨迹的颠簸程度，越小越好）。

结果很有说服力。DP在高频数据上还算稳定，偏差和抖动没有剧烈恶化。但OFT和PI0.5则在60Hz下出现了明显的问题：抖动大幅攀升，轨迹变得犹如心电图一样锯齿起伏。OFT的问题尤其严重，因为它依赖一种叫"离散动作标记化"的机制来处理动作——简单来说，它把连续的动作值"四舍五入"到最近的整数档位。在低频率时，每个动作跨度大，四舍五入带来的误差相对较小；但在高频率下，每个动作本身只有微小的位移，四舍五入的误差反而可能比动作本身还大，自然一塌糊涂。

这种现象揭示了一个核心矛盾：高频动作对于流畅执行来说必不可少，但对于机器学习模型来说又极度难以掌握。这就是这篇研究要解决的根本问题。

三、换个维度来学动作：把"精髓"压缩进潜空间

研究团队的核心创意是：既然在"动作空间"里直接学习高频动作太难，那就换一个维度来学。

具体来说，他们先构建了一个"压缩器"，专门负责把一段60Hz的动作序列（比如48帧）压缩成一个更紧凑的"精髓表示"（只有12帧的低维向量）。这个压缩器同时也配有一个"还原器"，可以把精髓还原回完整的48帧动作。这一套压缩-还原的组合装置，在学术上叫做变分自编码器（VAE）。

用一个熟悉的场景来理解这个思路：一个音乐老师弹了一段钢琴曲，你不需要记住每一个音符，而是先理解这段音乐的"情感骨架"——它是先扬后抑的，中间有个小转折，结尾是渐弱收束的。你把这个骨架记住，需要复现时再由骨架重建细节。这比死记硬背每个音符要容易得多，还原出来的旋律也往往更自然流畅，因为重建过程本身会帮你"填补"那些细碎的、合理的过渡。

VAE正是用这个逻辑工作的。它的编码器（压缩器）把48帧高频动作归纳成12帧的"动作骨架"（研究中称为"潜在表示"或"latent"），同时用一种数学机制确保这些骨架向量分布平滑、有规律（这叫KL散度正则化，可以理解为"保证骨架向量不会乱飘到奇怪的地方"）。解码器（还原器）则从12帧骨架重建出48帧的流畅动作。

训练完VAE之后，研究团队把所有示范数据都先通过VAE编码成"动作骨架"，然后让机器人学习的策略不再预测原始动作，而是预测这些12帧的骨架。骨架的维度更低、变化更平滑、规律性更强，学起来自然容易多了。执行时，策略预测出骨架，解码器再把骨架还原成60Hz的流畅动作，直接发送给机械臂。

从实验数据上看，这个方法的效果相当显著。在白板写字任务的数据集测试中，OFT原始方法的"位置偏差"是7.59毫米，"动作抖动"达到3.50；换到潜空间训练后，位置偏差降到了1.47毫米，动作抖动仅有0.02。DP也从偏差0.34降到0.26，抖动从0.35大幅降到0.01。PI0.5的抖动同样从2.13降到了0.01。在真实机器人执行实验中，三种方法的潜空间版本都一致实现了更低的抖动和更少的"超速次数"（超过每步2毫米位移安全限制的动作帧数），任务成功率也有不同程度提升——OFT在削黄瓜任务中成功率从28%跃升到74%，尤其惊人。

四、单块动作流畅了，但动作之间的"衔接点"又出问题了

解决了单段动作的流畅性之后，研究团队遇到了第二个挑战：当机器人需要连续执行长任务时，一段动作接着一段动作，衔接处会不会出问题？

要理解这个问题，先了解机器人执行长任务的方式。机器人不会一次性"想好"所有动作，而是每次预测一小段（这一小段叫"动作块"，即action chunk），执行完再预测下一小段。但策略的推理（预测新的动作块）需要时间，如果每次推理完了才开始执行，机器人就得在衔接处等待，出现明显停顿。

为了解决这个延迟问题，一种叫"异步推理"的方法被广泛使用：机器人一边执行当前动作块的后半段，一边在后台悄悄推理下一个动作块。等当前动作块执行完，新的动作块正好准备好，无缝切换。这样从外部看，机器人就是一直在运动，没有等待。

然而，异步推理引入了一个新麻烦：当推理完成时，推理所用观测图像是几帧之前的，预测出的新动作块起点可能和当前机器人的实际位置不一致，产生一个"跳跃"。这个跳跃有时会让机器人突然往回缩一下，或者出现明显的速度突变，这在需要接触物体表面的任务里（比如擦花瓶、写白板）后果尤为糟糕。

研究团队测量了这种"块间不连续性"：在OFT原始方法中，相邻两个动作块在衔接点的位置差距（"边界间隙"）平均达到15毫米；即便切换到潜空间训练，衔接问题也没有自动消失，边界间隙仍有7.67毫米。

五、"先复用、再精修"：给动作衔接缝隙打上一块补丁

针对动作块衔接问题，研究团队提出了RTR策略，全称"Reuse-then-Refine"（先复用、再精修）。这个策略不需要重新训练任何模型，完全是在执行阶段进行的。

核心思路可以用一个装修比喻来理解。假设你在铺瓷砖，每次铺一排。铺完第一排正在量第二排的位置时，你发现第二排的起点和第一排的终点之间有个缝隙。一个粗糙的办法是直接从那个缝隙开始铺；一个精巧的办法是，先拿几块你刚铺好的瓷砖（就在缝隙旁边）做参照，然后把它们和新一排的开头几块合在一起，交给一个自动调平工具重新处理一遍，保证两排之间平滑过渡，看不出接缝。RTR就是这个自动调平工具的角色。

具体操作是这样的：异步推理期间，机器人一直在执行前一个动作块中靠后的那些动作（这段时间叫"推理窗口"）。RTR把这段时间里已经执行过的动作"记住"（复用阶段），然后把它们拼接到新预测动作块的前面，形成一个混合序列。这个混合序列在时间上可能有点"错位"，但没关系——接下来把这个混合序列整体喂给VAE的编码器压缩成骨架，再由解码器还原回完整动作（精修阶段）。由于VAE的解码过程天然会施加平滑约束，还原出来的动作序列就会在两段之间自然过渡，消除掉那个生硬的跳跃。

整个RTR过程额外消耗的时间极少，实测只需约2毫秒，对整体执行几乎没有影响。

效果非常明显。以OFT潜空间方法为例，加入RTR后，边界间隙从7.67毫米进一步降到4.87毫米，重叠区域差异从1.96毫米降到0.41毫米。在真实机器人异步执行实验中，OFT搭配RTR后，削黄瓜任务成功率从20%升到70%，写白板任务从66%升到100%，抖动也从7.868大幅降到1.245。

研究团队还对比了另一种针对动作块衔接问题的方法RT-C（Real-Time Chunking），该方法通过让新动作块的生成"以上一个动作块为条件"来保证连续性，在流程模型上效果不错。但实验显示，RT-C在潜空间里不奏效——直接把RT-C应用到潜空间，反而让衔接问题更严重了（边界间隙从6.84毫米升到8.48毫米）。这说明RTR和潜空间的配合是专门设计过的，不能简单套用其他方案。

六、从整体表现看：流畅动作真的带来了实质收益

研究团队在三个真实的接触性操作任务上做了系统测评：用削皮器削黄瓜皮、用黑板擦擦掉花瓶上的污渍、用机器臂在白板上画一条完整的直线。每种方法每个任务都进行了50次机器人试验，结果非常有说服力。

在同步推理（机器人等推理完再执行）条件下，潜空间方法在三种策略上均带来了一致的改善。DP的抖动从2.057降到0.412（削黄瓜任务），从1.433降到0.645（擦花瓶），从1.140降到0.511（写白板）。超速次数也均有大幅下降。PI0.5的改善同样全面，写白板任务中抖动从2.509降到0.673。白板写字的直观对比更能说明问题：OFT原始方法写出的线条扭曲、频繁折返，整体耗时43.1秒，抖动值5.24；OFT潜空间方法写出的线条平直清晰，耗时仅14.3秒，抖动仅0.56。

在异步推理条件下，加入RTR之后的效果更为突出。DP+RTR在削黄瓜任务中成功率从82%升到90%，三个任务的抖动均大幅下降。PI0.5+RTR写白板抖动从4.984降到1.754。从视频对比来看，RT-C方法在执行时仍出现了明显的"回退"动作（机器臂短暂往反方向缩），而RTR方法完全消除了这种回退。

在端到端执行时间上，高频率方法相比低频方法也有显著优势。以DP为例，低频原始方法完成削黄瓜任务平均需要39.65秒，高频+潜空间+RTR方法只需14.59秒，节省了超过60%的时间。这个差距来源于低频方法的反复停顿与加减速，而高频流畅动作彻底消除了这种时间浪费。

七、细节验证：VAE该压缩多少才合适？

研究团队还深入研究了一个实用问题：VAE把48帧压缩成多少帧，效果最好？

他们测试了压缩比分别为1倍（不压缩）、2倍、4倍、8倍、16倍的情况，同时比较了连续型VAE和离散型VQ-VAE两种架构。结果揭示了一个"适度压缩甜蜜点"的规律：对于PI0.5，把48帧压到6帧（8倍压缩）时，位置偏差达到最低点；继续压缩到16倍，偏差反而显著回升，平滑度也开始恶化。对于OFT，最佳压缩点更早出现，在2倍压缩时就已达到最优，因为OFT本身的量化误差问题让它对过度压缩更加敏感。

连续VAE在所有测试条件下都优于VQ-VAE，说明保持潜在空间的连续性对于动作的精度和流畅性至关重要。这也印证了研究团队最初的设计选择：用连续VAE而不是离散VQ-VAE。

最终选用4倍压缩（48帧→12帧）作为所有实验的统一配置，这个参数在偏差和平滑度之间取得了良好平衡，同时也对不同策略都有较好的适用性。

八、迁移到模拟环境：通用任务表现不打折

有人可能担心：把动作先压缩成骨架再还原，会不会损失任务相关的关键信息，导致机器人在复杂多样的任务中表现变差？研究团队在LIBERO模拟基准上做了专门验证。

LIBERO包含四个任务套件，每个套件10个任务，涵盖空间推理、物体识别、目标导向和综合挑战等不同维度，是目前机器人模拟学习领域常用的标准测试平台。研究团队对ACT策略和PI0.5在原始方法与潜空间方法之间做了对比，各评估50次。结果显示，潜空间版本的平均成功率与原始版本基本持平，甚至略有提升：ACT-Latent平均成功率83.8%，略高于ACT的82.3%；PI0.5-Latent平均90.65%，略高于PI0.5的89.85%。

这说明潜空间的压缩-还原机制不会带来任务泛化能力的损失，机器人在更多样化的场景中依然能保持稳定的表现。

九、VAE还原误差有多小？几乎感知不到

另一个值得关注的问题是：VAE在把骨架还原成48帧高频动作时，还原精度如何？研究团队专门测量了三个任务中的还原误差，结果令人放心。在削黄瓜任务中，x轴偏差0.37毫米，y轴0.11毫米，z轴0.17毫米；擦花瓶任务中最大偏差是x轴0.38毫米；写白板任务中x轴0.50毫米。所有误差均在亚毫米级别，对于日常操作任务来说完全可以忽略不计。

RTR的使用确实会引入略微额外的误差（因为输入给VAE的是"复用+新预测"的混合序列，和训练时的纯示范序列有些许差异），但测量结果显示，加上RTR后误差最多增加约0.2毫米，仍在亚毫米范围内。这说明RTR在改善衔接连续性的同时，并没有明显牺牲动作精度。

说到底，这项研究的核心贡献在于，它找到了一条让机器人既能"精准"又能"流畅"地高频运动的路径。以往人们以为高频率和精准是一对矛盾体——频率越高，动作越难学准。这支团队的工作表明，只要换一个学习的维度（从原始动作空间切换到压缩后的潜在空间），这个矛盾可以大幅缓解。而RTR策略则进一步解决了"段落与段落之间如何流畅衔接"的问题，使机器人在长时间连续作业中也能保持一致的流畅性。

这对我们普通人的生活意味着什么？离我们最近的影响可能是家用和服务机器人领域。当前很多服务机器人在完成倒水、递物等任务时，动作机械、停顿频繁，让人很难相信它能胜任更复杂的家务。这项技术提供了一套可以叠加到现有主流机器人学习框架上的改进方案，不需要从头更换整个系统，只需在训练和执行环节加入VAE压缩和RTR精修，就能显著改善流畅性。

当然，研究团队也坦诚了一些局限性。目前实验受限于视觉传感器采样率，最高只测试了60Hz；未来如果硬件支持90Hz或120Hz，高频学习的挑战和收益可能还会有新的变化。RTR目前只针对潜空间策略做了设计，如果要用于直接在动作空间训练的策略，则还需要额外训练一个专用VAE，其有效性和最优化集成方式还有待研究。

有兴趣深入了解完整技术细节、实验数据和代码实现的读者，可以通过arXiv编号2605.24931查询这篇论文的完整版本。

Q&A

Q1：潜空间学习方法是否适用于所有类型的机器人策略？

A：目前研究团队在扩散策略（DP）、OpenVLA-OFT和PI0.5三种代表性策略上验证了这一方法，均取得了一致的改善效果。从原理上看，只要策略输出的是连续动作块，就可以在其前端叠加VAE压缩模块。但对于依赖离散动作标记化的策略（如OFT），改善效果尤其显著，因为潜空间的连续性正好弥补了离散化带来的量化误差。对于其他架构是否同样有效，还需进一步实验验证。

Q2：RTR方法在动作块衔接处会不会引入额外的动作误差？

A：会有轻微增加，但幅度极小。研究团队实测显示，使用RTR后，动作预测与真实动作之间的偏差最多增加约0.2毫米，仍处于亚毫米级别，对实际任务执行影响可忽略不计。与此同时，RTR带来的块间连续性改善（边界跳跃大幅减小）远超这点额外误差，整体执行质量显著提升，真实机器人抖动和超速次数均明显降低。

Q3：高频动作学习方案和低频插值方案相比，哪个更好？

A：实验结果显示高频潜空间方案明显优于低频插值方案。插值方案的思路是先在15Hz低频率上训练策略，执行时再把预测动作插值成60Hz。但插值无法恢复高频动作中的细节结构，只是机械地在两个已知点之间"填充"，导致插值后的轨迹抖动更大、精度更差。在真实机器人实验中，插值方案的超速次数约为高频潜空间方案的8到12倍，成功率也更低，整体执行时间反而更长。

机器人控制变分自编码器高频动作学习

分享至