
当我们还在惊叹ChatGPT能够和人类对话时,小米的研究团队已经悄悄把目光投向了一个更加雄心勃勃的目标:让机器人不仅能理解我们说的话,还能看懂我们的世界,并且真正动起手来帮我们做事。这项由小米机器人团队开展的突破性研究发表于2026年2月,论文编号为arXiv:2602.12684v1,标志着我们距离科幻电影中的智能机器人助手又近了一大步。
想象一下,如果有一个机器人管家不仅能听懂你说"帮我整理一下桌面",还能通过摄像头看到桌面上乱七八糟的物品,然后真正伸出机械臂把东西分类摆放整齐——这就是小米研究团队想要实现的愿景。他们开发的这套名为"Xiaomi-Robotics-0"的系统,就像是给机器人装上了一个超级大脑,让它同时具备了"眼睛"(视觉识别)、"耳朵"(语言理解)和"手臂"(动作执行)的完整能力。
这项研究的核心创新在于解决了一个长期困扰机器人领域的关键问题:如何让机器人在真实环境中既快速又流畅地执行复杂任务。过去的机器人要么动作僵硬卡顿,要么反应迟缓,就像一个刚学会走路的蹒跚学步儿。而小米的新系统通过巧妙的技术设计,让机器人能像熟练工匠一样连贯顺滑地完成各种精细操作。
研究团队面临的最大挑战就像是要训练一个全能选手:既要让机器人拥有足够的"智商"理解复杂指令,又要确保它的"动手能力"足够灵活精准,同时还不能因为思考太久而动作迟缓。他们采用了一个类似"分工合作"的巧妙方案——让一个专门的"视觉语言大脑"负责理解看到的画面和听到的指令,再让另一个"动作执行大脑"专注于规划和执行具体的机械动作。
最令人兴奋的是,这套系统在各种测试中都表现出色。在模拟环境的标准测试中,它在LIBERO基准测试中达到了98.7%的成功率,在其他两个重要测试平台SimplerEnv和CALVIN上也都取得了目前最佳成绩。更重要的是,在真实世界的实际测试中,这个机器人系统能够完成像拆解乐高积木并分类摆放、折叠毛巾等需要精细双手协作的复杂任务。
一、让机器人拥有"全能大脑"的秘密
要理解小米这项研究的厉害之处,我们可以把传统的机器人想象成一个只会按照固定程序工作的流水线工人。它虽然动作精确,但只能重复同样的操作,一旦遇到新情况就束手无策。而小米研发的Xiaomi-Robotics-0就像是培养了一个既有学识又有技能的全能工匠,不仅能理解复杂的工作要求,还能灵活应对各种突发状况。
这个"全能大脑"的核心是一个叫做"视觉-语言-动作模型"的系统架构。这个名字听起来很复杂,但用通俗的话解释就是:机器人通过摄像头"看"到环境,通过麦克风"听"到指令,然后"想"出最合适的动作方案并执行。这就像我们人类处理任务的过程一样自然流畅。
研究团队在设计这个系统时面临的第一个关键挑战是数据准备。他们需要教会机器人各种各样的技能,就像培养一个全能学徒一样。为此,他们收集了两大类训练素材:一类是现有的机器人操作录像,包含大约200万个时间步的各种机器人动作数据;另一类是包含8000多万个样本的视觉语言数据,涵盖了图像描述、问答对话、视觉定位等多种任务。
这种"双管齐下"的训练方式非常巧妙。机器人操作数据教会了系统如何在物理世界中移动和操作物体,而视觉语言数据则让系统具备了理解和描述世界的能力。这就像让一个学徒既要学习实际的手工技艺,又要学习理论知识和沟通技巧,最终成为一个真正的全能工匠。
在处理视觉语言数据时,研究团队特别注重四个方面的能力培养:视觉定位(能准确指出物体在哪里)、视觉问答(能回答关于图像内容的问题)、图像描述(能用语言描述看到的场景)、以及具身推理规划(能基于视觉信息制定行动计划)。这些能力的结合让机器人不仅能"看懂"环境,还能"想明白"该怎么行动。
特别值得一提的是,研究团队还专门收集了两个极具挑战性的任务数据:乐高拆装和毛巾折叠。乐高拆装需要精确的双手协调和力度控制,毛巾折叠则要处理柔软易变形材料的复杂物理特性。这两个任务分别收集了338小时和400小时的操作数据,为机器人学习精细操作提供了宝贵的训练素材。
二、两阶段训练:从"理论学习"到"实践操练"
小米研究团队设计的训练过程就像培养一个全能学徒的完整教育方案,分为两个循序渐进的阶段。第一阶段可以比作"理论学习和基础技能培养",第二阶段则是"专业技能的精细打磨"。
在第一阶段,研究团队采用了一个创新的方法来同时训练机器人的"理解能力"和"动作能力"。他们让视觉语言模型既要学会处理纯粹的视觉语言任务(比如看图说话、回答问题),又要学会根据观察到的情况预测应该执行的动作。这就像让学徒既要学习理论知识,又要开始接触实际操作。
为了避免机器人在学习动作技能时忘记已经掌握的视觉语言能力,研究团队采用了"混合训练"的策略。他们让系统按照1比6的比例同时学习视觉语言数据和机器人轨迹数据。这样既保证了机器人不会因为专注学习动作而变得"不善言辞",又确保了动作技能能得到充分训练。
在动作预测方面,研究团队采用了一种叫做"选择策略"的巧妙方法。系统不是直接输出一个动作序列,而是同时生成多个候选方案,然后为每个方案打分,最终选择最优的那个。这就像一个经验丰富的工匠在动手之前会在脑海中考虑几种不同的操作方式,然后选择最合适的那一种。
第二阶段的训练重点转向了动作生成的精细化。研究团队冻结了第一阶段训练好的视觉语言理解部分,专门训练一个基于扩散变换器的动作生成器。这个生成器使用了"流匹配"技术,可以生成非常流畅自然的动作序列。
扩散变换器的工作原理很像艺术家的创作过程。它从一团"噪声"开始,逐步雕琢出精确的动作轨迹,就像雕塑家从粗糙的石块中逐渐雕刻出精美艺术品一样。这种方法生成的动作不仅精确,而且非常流畅自然,避免了传统方法容易产生的僵硬和不连贯问题。
为了让动作生成器能够充分利用视觉语言理解的结果,研究团队设计了一个巧妙的"条件注入"机制。动作生成器不仅要考虑当前的观察和指令,还要参考机器人的本体感觉状态(比如关节角度、力反馈等)。这就像一个熟练工匠不仅要看清楚工作对象,还要时刻感知自己身体的状态,确保每个动作都准确到位。
三、破解实时执行难题:让机器人动作"行云流水"
传统机器人系统面临的一个核心难题就像是"边走边想路"的困境。机器人需要时间来思考下一步该怎么做,但在思考期间它不能停下来等待,否则动作就会变得断断续续,非常不自然。小米的研究团队为这个问题提供了一个极其巧妙的解决方案。
他们提出的"异步执行"策略就像是让机器人学会了"一心二用"的本领。当机器人的手臂在执行当前的动作序列时,它的"大脑"已经在为下一个动作序列进行规划了。这样当前面的动作快要结束时,新的动作方案已经准备就绪,可以无缝接替,整个过程就像接力赛跑一样流畅。
但是这种异步执行方式也带来了新的挑战:如何确保前后动作之间的连贯性。研究团队的解决方案是在规划新动作时,将前面动作的末尾部分作为"起始条件"纳入考虑。这就像舞蹈演员在表演连续动作时,每个动作都要考虑前一个动作的结束姿势,确保整套动作看起来协调自然。
然而,简单的"动作前缀"方法存在一个意想不到的副作用:机器人可能会变得"偷懒"。由于后续动作可以参考前面的动作模式,系统可能会过分依赖这种"抄作业"的方式,而不是真正根据视觉和语言信息来规划动作。这就像学生做作业时总是参考标准答案,虽然能保证答案正确,但失去了独立思考的能力。
为了解决这个问题,研究团队引入了一个非常聪明的"Λ形注意力掩码"机制。这个机制的作用就像给机器人戴上了"有选择性的眼罩":它可以看到前面动作的一小部分用于保证连贯性,但不能看到太多,必须主要依靠当前的视觉观察和语言指令来做决策。这样既保证了动作的流畅连接,又确保了机器人保持对环境变化的敏感反应。
在具体的部署过程中,研究团队设计了一个精妙的时间同步机制。机器人每次生成一个包含多个时间步的动作块,然后只执行其中的一部分,同时开始规划下一个动作块。当下一个动作块规划完成时,正好可以接替当前动作块的执行。这个过程就像工厂流水线一样精确协调,确保没有任何停顿或浪费。
整个系统在消费级GPU(NVIDIA GeForce RTX 4090)上的推理时间仅为80毫秒,这意味着机器人可以以超过每秒10次的频率更新动作计划。这种反应速度已经足以支持大多数日常任务的实时执行,让机器人的动作看起来自然流畅,就像人类操作一样。
四、真枪实弹的考验:从仿真到现实的全面测试
为了验证Xiaomi-Robotics-0的实际能力,研究团队设计了一套从虚拟仿真到真实世界的全方位测试方案。这就像培训一个运动员,既要在训练场上练习基本功,也要在真正的比赛场地上检验实战能力。
在仿真环境测试中,Xiaomi-Robotics-0在三个主要基准测试平台上都取得了目前最佳成绩。在LIBERO测试中,系统达到了98.7%的平均成功率,这意味着几乎每100次任务中只有不到2次会失败。这个成绩就像一个技艺精湛的工匠,几乎不会在常规任务上出错。
CALVIN测试平台更具挑战性,它要求机器人连续完成5个相关任务,就像让机器人处理一个复杂的工作流程。在这项测试中,Xiaomi-Robotics-0平均能够连续完成4.75到4.80个任务,明显优于其他竞争系统。这表明系统不仅能处理单个任务,还能很好地处理任务之间的逻辑关系和状态转换。
SimplerEnv测试平台则检验机器人在更接近真实世界环境中的表现。这个平台特别设计了视觉匹配和视觉变化两种测试模式,分别检验机器人在标准环境和变化环境中的适应能力。Xiaomi-Robotics-0在视觉匹配模式下达到85.5%成功率,在更困难的视觉变化模式下也达到了74.7%的成功率。这种强健的适应能力证明了系统具有良好的泛化性能。
但真正的考验来自现实世界的实际操作任务。研究团队选择了两个极具挑战性的任务来测试系统的实际能力:乐高积木拆装分类和毛巾折叠。这两个任务分别代表了刚性物体操作和柔性物体处理的典型场景。
乐高拆装任务要求机器人将复杂的乐高结构拆解成单独的积木块,并根据颜色将它们分类放入不同的收纳盒。这个任务需要精确的双手协调、适当的力度控制以及准确的视觉识别能力。机器人必须能够判断哪些积木块可以安全分离,如何施加合适的力量,以及如何准确地将小积木放入正确的位置。
毛巾折叠任务则更具挑战性,因为布料是软质材料,其形状和状态随时在变化。机器人需要学会如何抓取毛巾的合适位置,如何展开皱巴巴的毛巾,如何进行精确的折叠操作,以及如何处理折叠过程中出现的不规整情况。这类似于教会机器人处理"活"的、不断变化的工作对象。
在这两个现实任务的测试中,Xiaomi-Robotics-0不仅成功率很高,更重要的是展现出了出色的执行效率。在乐高拆装任务中,系统的吞吐量明显超过了对比方法,意味着它能更快地完成任务。在毛巾折叠任务中,系统达到了每分钟1.2条毛巾的处理速度,这已经接近熟练工人的工作效率。
特别值得注意的是,系统在处理异常情况时表现出了良好的鲁棒性。比如在毛巾折叠任务中,当机器人意外抓到毛巾的多层时,传统的"训练时条件"方法往往会陷入重复的错误动作循环,就像一个程序卡死一样。而Xiaomi-Robotics-0能够识别这种异常情况并调整策略,展现出了更强的适应能力和问题解决能力。
五、保持"博学多才":视觉语言能力的完美保留
在开发机器人操作能力的过程中,研究团队面临一个重要挑战:如何确保机器人在学会"动手"的同时不忘记"动脑"。这就像培养一个既要有实际操作技能又要保持学术水平的复合型人才一样困难。
为了验证Xiaomi-Robotics-0是否成功保持了强大的视觉语言理解能力,研究团队在十个不同的标准测试平台上对系统进行了全面评估。这些测试覆盖了从基础的图像描述、问答对话,到复杂的图表理解、科学推理等各个方面的能力。
在综合能力测试中,Xiaomi-Robotics-0在大多数项目上都与原始的视觉语言模型(Qwen3-VL-4B-Instruct)保持了相近的性能水平。这意味着系统在学习机器人操作技能的同时,并没有发生"灾难性遗忘"——它仍然能够很好地理解图像内容、回答视觉问题、识别文字信息等。
更令人惊喜的是,在具身推理基准测试ERQA中,Xiaomi-Robotics-0的表现甚至略微超过了原始模型(40.8分对比40.0分)。研究团队认为这种改善可能来自于机器人轨迹数据的加入——这些数据帮助系统更好地理解物理世界中的空间关系和动作逻辑。
这种"多才多艺"的能力保持对于实际应用非常重要。在现实场景中,机器人助手不仅需要执行具体的操作任务,还需要能够与人类进行自然交流,理解复杂的指令描述,甚至回答用户关于环境或任务的各种问题。Xiaomi-Robotics-0展现出的这种综合能力正是未来智能机器人助手的理想特征。
研究团队通过对比实验进一步证明了联合训练策略的重要性。当他们尝试训练一个没有视觉语言数据的版本时,这个版本在所有视觉语言测试中的表现都接近于零,证明了专门的视觉语言训练对于保持这些能力的关键作用。同样,其他一些没有采用适当策略的竞争方法也出现了明显的能力退化现象。
这些结果表明,小米研究团队成功找到了一个在机器人操作能力和通用智能能力之间的平衡点。他们开发的系统既是一个优秀的机器人操作员,也是一个称职的智能对话伙伴,这为未来开发真正实用的家庭机器人助手奠定了坚实基础。
六、技术创新背后的深层意义
Xiaomi-Robotics-0的成功不仅仅是一个技术突破,更代表了机器人智能发展的一个重要里程碑。这项研究解决了长期困扰机器人领域的几个核心问题,为未来的智能机器人发展指明了方向。
首先,这项研究证明了"大一统"方法的可行性。传统的机器人系统往往需要为每个特定任务单独设计和训练,就像专业工种的工人只能胜任特定工作一样。而Xiaomi-Robotics-0展示了一种"通才"型机器人的可能性——同一个系统可以处理完全不同类型的任务,从刚性物体操作到柔性材料处理,从精细装配到空间整理。
其次,研究团队成功解决了实时性与流畅性的平衡问题。过去的智能机器人要么反应迅速但动作简单,要么能力强大但响应迟缓。Xiaomi-Robotics-0通过巧妙的异步执行策略,实现了既聪明又敏捷的表现,这为机器人在动态环境中的实际应用铺平了道路。
从技术路径选择的角度来看,这项研究验证了"先通用再专精"的发展策略。通过先在大规模多样化数据上进行预训练,再针对特定应用进行精调,系统获得了比从零开始训练更好的性能和更强的泛化能力。这个策略与近年来人工智能领域的主流发展趋势高度一致。
更重要的是,Xiaomi-Robotics-0的开源策略为整个机器人研究社区提供了宝贵的基础设施。研究团队公开了预训练模型、代码和相关工具,这意味着其他研究者可以在这个基础上进行进一步的创新和改进,而不需要从头开始重复基础工作。这种开放共享的态度有望加速整个领域的发展进程。
从实际应用的角度来看,这项研究距离真正的商业化应用还需要进一步的工程化改进。目前系统仍然需要相对较好的硬件支持,而且在处理一些极端情况时可能还需要更多的训练数据和优化。但是,它已经展现出了在可控环境中稳定工作的能力,这为家庭服务机器人、工业辅助机器人等应用场景提供了新的可能性。
说到底,Xiaomi-Robotics-0代表的不仅是技术进步,更是我们向着真正智能机器人助手梦想迈出的重要一步。虽然距离科幻电影中无所不能的机器人管家还有距离,但这项研究让我们看到了这个未来的轮廓正在变得越来越清晰。当机器人真正能够理解我们的需求,观察我们的环境,并且流畅地执行复杂任务时,它们就不再只是冰冷的机械设备,而是真正有用的智能伙伴。
随着这类技术的不断成熟和普及,我们可能很快就会看到真正实用的家庭机器人助手走进千家万户,帮助我们处理日常生活中的各种琐事,让我们有更多时间专注于真正重要的事情。这不仅会改变我们的生活方式,也可能重新定义人类与技术之间的关系。
Q&A
Q1:Xiaomi-Robotics-0和传统机器人有什么不同?
A:Xiaomi-Robotics-0最大的不同是它具备了"看、听、想、做"的完整能力链。传统机器人通常只能按固定程序重复特定动作,而这个系统能通过摄像头观察环境,理解语言指令,然后规划出合适的动作序列来完成任务。它更像一个真正的智能助手,而不是简单的自动化设备。
Q2:这个机器人系统能处理哪些实际任务?
A:目前已经验证的任务包括乐高积木的拆装分类和毛巾折叠两大类。乐高任务需要精确的双手协调和力度控制,毛巾折叠则要处理柔软材料的复杂变形。这两个任务代表了刚性物体操作和柔性物体处理的典型场景,证明系统具备处理多种日常任务的潜力。
Q3:普通人什么时候能用上这样的机器人助手?
A:虽然Xiaomi-Robotics-0已经展现出令人印象深刻的能力,但距离商业化应用还需要时间。目前系统需要专业硬件支持,成本较高,而且在极端情况下的处理能力还需要进一步提升。不过随着技术成熟和成本下降,未来几年内我们很可能看到基于类似技术的家用机器人产品。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。