
这项由清华大学、北京大学、上海交通大学、上海期智研究院以及Galbot公司联合完成的研究,以预印本形式发布于2026年6月,论文编号为arXiv:2606.03985,有兴趣深入了解的读者可以通过该编号查询完整论文。
在正式进入故事之前,先描述一个场景帮助理解接下来所有内容的核心问题。假设你是一位武术教练,你的工作是训练一个机器人学生,让它能模仿任何一个人的动作——无论是优雅的芭蕾、狂野的街舞,还是高难度的功夫。过去的做法是:教练对每一套动作都要从头教起,教翻跟头就只会翻跟头,教跳舞就只会跳那一支舞,换一首歌就傻眼了。而研究团队希望打造的,是一个只需要看过足够多的人类动作视频,就能举一反三、无需额外练习就能模仿任何新动作的"天才机器人学生"——这就是Humanoid-GPT的核心目标。
**一、为什么以前的机器人"学了就忘,学多了又乱"**
要理解这项研究的突破,得先弄清楚过去的机器人是怎么"学动作"的。
过去的人形机器人控制系统,本质上像是一本极薄的食谱。食谱里只记录了几道菜的做法,厨师(也就是机器人的控制程序)只会做这几道。你让它做一道新菜,它就手足无措。这本"薄食谱"有两个关键问题:一是收录的菜谱太少,二是厨师本身的学习能力有限。
具体来说,以往用于训练机器人动作的数据集,像AMASS、LAFAN1这些在业界广泛使用的数据库,总共也就包含大约七百二十万帧动作数据,相当于把人类所有的运动种类浓缩进一本只有几十页的小册子。在这么少的数据上训练出来的机器人,往往陷入一个两难困境:要么它练得很"专",对学过的高难度动作执行得很好,但换一个新动作就完全不会;要么它练得很"泛",对什么动作都有点感觉,但碰到快速、高强度的动作时又会摔倒或做得很敷衍。这就像是有些学生只会死记硬背,换个题型就不会了;另一些学生理解能力强但基本功不扎实。
研究团队认为,这个两难困境根本上不是因为机器人"不够聪明",而是因为"见识太少",以及"学习工具不对"。
**二、两个关键升级:看过更多、用更好的脑子去学**
Humanoid-GPT的解决方案,可以用一个升级版的"学徒培养计划"来理解。
这套计划的第一个升级,是给机器人学徒准备了一个前所未有规模的"动作图书馆"。研究团队把目前能找到的几乎所有大型人类动作数据集全部收集起来,包括AMASS、LAFAN1、MotionX++、PHUMA,以及MotionMillion,再加上他们自己内部拍摄采集的大量真实动作数据。经过筛选、整理和扩充之后,最终得到了高达二十亿帧的动作数据。二十亿是什么概念?以前最多的训练数据大约是一亿帧,而业界常用的数据集只有七百二十万帧左右。这个新的数据库,比以前最大的训练数据集还要大二十多倍,比常用数据集大了整整两百七十多倍——相当于把一本几十页的食谱,扩充成了一座装满数百万册食谱的大型图书馆。
当然,光有海量书籍还不够,还需要一个能真正读懂这些书的"大脑"。这是第二个关键升级:把以前那个简单的"小脑袋"(也就是多层感知机,业界术语叫MLP,一种相对简单的人工神经网络结构)换成了一个更强大的"GPT风格Transformer"。
Transformer这种结构,正是驱动ChatGPT等大型语言模型的核心技术。它的关键优势在于能够理解"序列"——也就是说,它看动作时不是孤立地看每一帧,而是能理解"前一秒发生了什么、现在正在发生什么"之间的关联。这就像是阅读一段话:一个聪明的读者不会孤立地看每个字,而是结合上下文来理解含义。研究团队给这个模型起名Humanoid-GPT,直接点明了它与大语言模型的精神传承关系。
值得注意的是,研究团队使用的是"因果注意力"(causal attention)机制。这个看起来复杂的词,实际上说的是一个非常简单的现实约束:机器人在执行动作时,无法预知未来会发生什么,它只能根据目前和过去看到的信息来做决定。就像开车时你只能看到前方的路,而不能看到转弯后面有什么。因此,模型被设计为只参考历史信息来预测当前应该怎么做,这与真实部署时的约束完全吻合。
**三、数据图书馆的"分类整理系统":谐波动作嵌入**
光有两亿本书还不够,还需要一套合理的图书馆分类系统,否则书堆在一起根本没法用。
研究团队面临的一个实际问题是:在这二十亿帧数据里,常见动作(比如走路、站立)占了绝大多数,而一些重要但稀少的动作(比如空翻、功夫)很容易被"淹没"。如果机器人只是随机从这堆数据里学,它就会不断重复练习走路,而对空翻一无所知——就像一个图书馆里九成都是菜谱,只有一两本武术书,结果学徒只会做饭,不会功夫。
为了解决这个问题,研究团队发明了一种叫做"谐波动作嵌入"(Harmonic Motion Embedding,简称HME)的技术。用通俗的话来说,这是一种把"动作的韵律特征"提取出来并转化为数字坐标的方法。
具体怎么做呢?研究团队先训练了几个"周期自动编码器"——可以把它理解成一种专门分析动作节奏的仪器。这个仪器能把每一段动作分解成各个关节的摆动幅度和摆动频率,就像把一首音乐分析成各种音符的音高和节拍一样。把一段动作的各关节摆动信息汇总起来,就得到了这段动作的"HME向量",也就是它在"动作特征空间"里的坐标。
有了这个坐标,就可以用一种叫做K-Means的方法,把所有动作按照特征的相似程度,自动分成大约三百个组(称为"簇")。每个组里大约有一千到两千段动作,组内动作比较相似,不同组之间动作差异较大。这样一来,无论是走路这种常见动作,还是空翻这种稀有动作,都会被放入各自对应的组,确保训练时能均衡地覆盖到各种动作类型。
研究团队还用两个指标来衡量数据集的"多样性":一个叫"几何标准差"(gstd),衡量各种动作在特征空间里是否分散;另一个叫"对数体积"(log-volume),衡量动作覆盖范围的广度。对比结果显示,他们整理的数据集比单独使用AMASS数据集的对数体积提升了大约四到五倍,证明了数据多样性的显著提升。简单来说,这套分类系统让图书馆的书不再堆在角落里,而是被合理归类上架,保证了每类知识都能被学到。
**四、三步培养计划:从专科高手到全能大师**
了解了"图书馆"和"大脑"之后,再来看看Humanoid-GPT是如何被一步步培养出来的。整个训练流程就像培养一位全能武艺大师,分三个阶段进行。
第一阶段,整理馆藏并制作练习卷子。研究团队把二十亿帧数据经过过滤、整理,并用动作重定向技术(将人类骨骼动作转换为机器人关节角度的过程),全部转化为Unitree G1人形机器人(一款真实的商用人形机器人)能够执行的格式。为了让机器人对动作快慢有更强的适应能力,他们还对每段动作做了"时间拉伸"处理——把每段动作分别加速和减速,扩充成原来的五倍数量。
第二阶段,培养三百位"专科教练"。研究团队对每一个动作类别(大约三百个分组),分别用强化学习(RL)方法训练一个专门的"专家策略"。强化学习可以理解为让机器人反复试错、不断改进——它尝试某个动作,如果做得好就得到奖励,做得差就受到惩罚,慢慢自己摸索出最优的做法。奖励的设计非常精细:评估的是机器人的手、臀部、脚、骨盆等关键身体部位的位置误差、速度误差和姿态误差,而不只是简单地看关节角度是否对齐。经过筛选,只有那些能长时间稳定执行动作的高质量专家才会被保留下来,最终形成一支覆盖各种动作风格的"三百强教练团"。
第三阶段,把三百位教练的知识全部装进一个"天才学生"的大脑里。这一步用的技术叫做DAgger蒸馏。可以把它理解为一种高效的"跟师学艺"方法:机器人学生(也就是Humanoid-GPT这个Transformer模型)在模拟环境里执行动作,遇到某段动作时,对应的专科教练会实时示范"正确的做法应该是什么",学生则努力学习并逼近教练的输出。Transformer结构的一大优势在于,它可以把一整段历史动作序列同时喂给模型,一次训练步骤就能对历史上多个时刻的预测同时进行监督,极大提高了训练效率。
训练完成后,那三百位专科教练就功成身退,只有这一个"学生"被部署到真实机器人上。它只需要32帧的历史动作信息作为上下文,就能实时预测下一步应该做什么。
**五、实验结果:不仅更准,还能"看一眼就会"**
研究团队在MuJoCo物理仿真引擎(一款专门用于机器人研究的物理模拟软件)中进行了系统测试,测试用的动作数据是训练时从未见过的新动作(来自AMASS数据集的测试集)。
对比的基准方法包括三个强劲的竞争对手:GMT(一种使用混合专家架构的追踪系统)、TWIST(专为Unitree人形机器人设计的全身遥操作追踪系统)以及Any2Track(强调抗干扰能力的通用追踪系统)。这三者都基于MLP架构,训练数据量在六百万到九百万帧之间。
衡量好坏的指标有五个维度:动作追踪成功率(SR,也就是机器人在执行动作过程中不摔倒的比例)、关节位置误差(MPJPE)、关节速度误差(MPJVE)、根节点速度误差(RootVelErr),以及关键身体部位位置误差(MPKPE)。
结果显示,规模最小的Humanoid-GPT-S在仅使用两百万帧数据训练时,成功率就达到了83.26%,已经超过了比较简单的MLP和TCN(时序卷积网络)基线。随着数据量增加到两百亿帧,Humanoid-GPT-B的成功率升至90.43%。而参数量最大的Humanoid-GPT-L(拥有八千零四十万参数)在两百亿帧数据上的成功率进一步达到92.58%,关节位置误差降至0.0735弧度,关键部位位置误差降至40.99毫米。
相比之下,MLP和TCN结构在数据量持续增加时会遭遇"饱和"困境:数据从两亿帧增加到两百亿帧,带来的改善越来越微小;而且当模型参数量很大、但训练数据只有两百万帧时,更大的MLP反而比小MLP表现更差,出现了"过拟合"现象(就像一个脑子很聪明的学生,因为练习题太少,反而把答案都死记硬背下来,换一道题就不会了)。Transformer则完全不同,它能随着数据量和参数量的持续增加稳步提升,没有饱和迹象。
**六、从数字游戏到真实机器人:零样本泛化的意义**
仿真里表现好只是第一步。研究团队随后把Humanoid-GPT直接部署到真实的Unitree G1机器人上,测试它对四段完全未见过的舞蹈动作的追踪能力(包括Can Do Can Go!、Gokuraku Joudo、HuoYuanJia/Fearless和PokerFace这四段舞蹈)。
"零样本"意味着:不给机器人任何针对这些新动作的专门练习时间,直接让它上场。结果,Humanoid-GPT-B在这四段舞蹈上的关节位置误差(MPJPE)分别为0.0974、0.1075、0.0858和0.0856弧度,全面优于GMT、TWIST和Any2Track三个竞争对手。
研究团队还测试了实时遥操作场景:一个真人演员穿着动作捕捉设备做各种动作,机器人实时跟着模仿。结果机器人能流畅地模仿下蹲、迈步、转身、弯腰和各种手臂动作,同时保持平衡,过渡自然。
从图4和图6展示的真实场景来看,机器人成功展示了拖地、与猫互动、铲猫砂、清理桌面、阅读书本、开门取快递、踢足球运球、帮人搬家、打篮球、翻滚起身、打拳击、跳迈克尔·杰克逊舞蹈以及Gokuraku Joudo舞蹈等等丰富多样的动作。这些动作全部是训练时未曾出现过的,完全依赖模型的泛化能力。
**七、规模越大,效果越好:一套可预测的成长曲线**
研究团队专门做了规模效应的分析,也就是所谓的"scaling law"(规模定律),试图回答:多投入多少数据或多大的模型,能带来多少改善?
在数据规模方面,使用Humanoid-GPT-B架构,分别在两百万、两千万、两亿和二十亿帧数据上训练,零样本追踪的MPJPE误差从0.166逐步下降到0.128、0.105,最终达到0.094。这是一条持续下降的曲线,说明更多数据确实带来更好的效果,尽管从两亿到二十亿帧时改善幅度略有收窄,提示在当前模型容量下开始接近数据效益的上限,未来可能需要同步扩大模型规模才能继续提升。
在模型规模方面,对比同等规模的Transformer和MLP,在两百亿帧数据上持续训练二十万步。Transformer的训练损失稳步下降,而MLP在大约十万步之后就基本停止改善,陷入停滞。这直观地说明了为什么Transformer是更适合"大数据时代"的架构选择。
**八、让大模型跑在嵌入式机器人上:工程优化的巧思**
拥有八千多万参数的Transformer模型,计算量远比一个小型MLP大得多。如何保证机器人能实时运行,是工程上的重要挑战。
研究团队采用了多层次的优化策略。首先,将模型导出为ONNX格式(一种通用的神经网络模型标准),在CPU上的最大推理时延约为7.48毫秒,平均约6.04毫秒。接着,在GPU上运行ONNX版本,最大时延降至5.29毫秒,平均4.36毫秒。再进一步,使用TensorRT(NVIDIA专为深度神经网络推理优化的编译工具)以及键值缓存(Cache,一种避免重复计算历史信息的技巧),最大时延大幅降至0.92毫秒,平均仅0.58毫秒。最后,加上C++实现的通信层(约0.65毫秒最大,0.39毫秒平均),整个系统的端到端推理时延控制在1.5毫秒以内。
对比来看,竞争对手TWIST的CPU ONNX推理时延为3.32毫秒(平均2.79毫秒)。Humanoid-GPT的最终推理速度,比TWIST快了大约五倍。这意味着,尽管模型规模大幅提升,经过精心工程优化后,仍然可以在现实机器人的50赫兹控制频率下实时运行,不存在任何延迟问题。
**九、消融实验:每一个设计选择都经过验证**
研究团队还做了大量对照实验(消融实验),验证每一个设计决策是否真的有效。
关于分组数量的问题:研究团队测试了把动作分成128、256、384、512和1024组时,系统的表现差异。结果显示,分成384组时成功率达到90.4%,是最优配置。分得太少(128组)导致每组内动作太杂,专科教练教不好;分得太多(1024组)则导致训练成本飙升,而且不同组之间的教练指令互相矛盾,反而让学生不知所措。
关于历史长度的问题:Transformer模型需要回顾多少帧历史信息才够用?测试结果显示,从4帧增加到64帧,成功率从88.4%稳步升至90.6%,一直在改善。但由于Transformer的计算量与序列长度的平方成正比(历史越长,计算量增长越快),综合考虑效果和计算成本,最终选择了32帧历史作为默认设置,成功率达到90.4%。
关于DAgger阶段使用的环境数量问题:数据量越大,训练时需要同时维持的模拟环境数量也越多,以避免遗忘之前的动作。测试表明,从2048个环境一路增加到32768个环境,成功率从88.7%提升到90.4%,因此最终采用32768个并行环境进行训练。
**十、整个项目的计算代价**
为了让读者有具体感受,研究团队在论文中公开了整个训练过程的计算消耗。三百多个专科教练的PPO强化学习训练,耗费了约12000个GPU小时(使用RTX 4090显卡),占总计算量的75%。Transformer蒸馏阶段耗费了约3000个GPU小时(使用H100显卡),占25%。合计约15000个GPU小时。这是一个相当大的计算投入,但对于追求这个量级的泛化能力来说,研究团队认为是合理的。
---
说到底,Humanoid-GPT做的事情,就是把人类在语言模型领域积累的"大数据加大模型"经验,第一次真正移植到人形机器人的全身动作控制领域。它的故事说明:那个"越学越专、越泛越弱"的两难困境,并非机器人天生的宿命,而只是数据太少、模型太小的阶段性局限。当数据量提升两百倍、模型换成能持续进步的Transformer架构时,机器人可以同时做到"动作精准"和"举一反三"——这两个以前相互排斥的目标,居然可以并肩而立。
对普通人来说,这项研究最直接的意义或许是:未来家中的服务机器人,可能真的不需要针对每项新任务重新训练,只需要把它接入一个足够强大的"预训练全身控制模型",它就能直接开始工作。就像今天的智能手机能跑各种各样的App,而不需要为每个App专门定制一款手机芯片一样。
当然,这项研究目前还有一些领域尚未涉及:机器人还不会与物体进行复杂交互(比如拿起杯子并稳稳地放好),也不能理解语言指令来决定做什么动作,更不能在多个机器人之间协作。研究团队在展望部分也明确提出了这些方向:将视觉、语言等更丰富的信息引入控制系统,以及与更高层的任务规划模块结合,朝着真正通用的具身智能体迈进。
这项研究的成果已在GitHub上开源(仓库名为GalaxyGeneralRobotics/Humanoid-GPT),对机器人控制、强化学习或具身智能感兴趣的读者,可以通过arXiv编号2606.03985查阅完整论文,获取所有技术细节和实验数据。
---
Q&A
Q1:Humanoid-GPT和普通机器人控制系统有什么本质区别?
A:普通机器人控制系统通常只能执行事先专门训练过的动作,换一个新动作就需要重新训练。Humanoid-GPT的核心区别在于它用二十亿帧动作数据训练了一个GPT风格的Transformer模型,使机器人能在完全没见过某个动作的情况下,直接根据参考动作实时模仿——就像一个见多识广的舞者,见到新舞步也能快速上手,而不是只会几套固定舞蹈。
Q2:Humanoid-GPT训练需要多少计算资源,个人能复现吗?
A:整个训练过程消耗了约一万五千个GPU小时,其中三百多个专科教练的强化学习训练占了七成五,Transformer蒸馏占了两成五。这对个人来说是相当大的计算投入,个人复现全部训练流程难度较高。不过研究团队已在GitHub开源了代码,感兴趣的研究者可以尝试使用已有的专家模型直接进行蒸馏阶段的实验,降低入门门槛。
Q3:Humanoid-GPT能控制什么型号的机器人,可以移植到其他机器人上吗?
A:目前Humanoid-GPT是针对Unitree G1人形机器人(29个自由度)训练和验证的。移植到其他机器人需要重新进行动作重定向(将人类动作转换为目标机器人关节格式),并重新训练专科教练和蒸馏阶段。框架本身是通用的,理论上可以适配其他人形机器人平台,但需要相应的工程适配工作。
好文章,需要你的鼓励
本文介绍了弗莱堡大学等机构提出的3D-SC框架,通过引入三维基础模型的几何先验,无需人工标注即可解决AI图像匹配中的左右混淆和重复部件分不清的问题。
这项来自诺基亚贝尔实验室与巴黎理工学院的研究提出了In-Writing框架,让大语言模型先自由推理、再套用格式约束,准确率最高提升27%。
KAIST与MIT研究发现,RLHF对齐训练存在"对齐篡改"漏洞:当AI生成的偏见回答与高质量回答相关联时,对齐流程会反向放大偏见,现有缓解方法均未能有效解决这一结构性缺陷。
这项研究提出Skill0.5框架,通过区分通用技能(内化进参数)和特定技能(动态外置使用),配合难度感知路由和反走捷径机制,显著提升AI智能体在未见新任务上的泛化表现。