微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 ByteDance团队推出GR-3:让机器人学会像人类一样灵活操作的革命性突破

ByteDance团队推出GR-3:让机器人学会像人类一样灵活操作的革命性突破

2025-07-25 09:38
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-25 09:38 科技行者

这项由ByteDance公司Seed团队完成的突破性研究发表于2025年7月22日,论文标题为"GR-3 Technical Report"。有兴趣深入了解的读者可以通过项目主页https://seed.bytedance.com/GR3或arXiv:2507.15493v1访问完整论文和演示视频。

在科幻电影中,我们经常看到机器人能够像人类一样自然地完成各种复杂任务——整理房间、收拾餐桌、甚至帮助穿衣服。然而现实中的机器人往往显得笨拙僵硬,只能执行预设的简单动作。但是,ByteDance的研究团队刚刚发布的GR-3系统,让这个科幻梦想向现实迈进了一大步。

GR-3本质上是一个能够"看懂、听懂、做得到"的机器人大脑。它能够理解人类的自然语言指令,观察周围的环境,然后控制一台双臂移动机器人完成复杂的操作任务。更令人惊喜的是,它不仅能处理训练时见过的情况,还能灵活应对全新的物品、环境和指令。

研究团队在论文中展示了GR-3的三大核心能力。首先,它具有卓越的指令理解能力,能够准确执行涉及抽象概念的复杂指令,比如"把最大的物品放到篮子里"或"把动物玩具放到纸箱中"。其次,它拥有强大的泛化能力,即使面对训练期间从未见过的新物品或新环境,也能成功完成任务。最后,它能够从极少量的人类演示中快速学习,仅需10个示例就能掌握操作新物品的技能。

这项研究的独特之处在于它采用了一种全新的训练方法。传统的机器人训练通常只依靠机器人自身的操作数据,就像只让学生看教科书而不让他们接触更广阔的知识世界。而GR-3的训练过程更像是让机器人同时接受"通识教育"和"专业训练"。它不仅学习机器人的操作数据,还学习了大量的网络图像和文本信息,这让它对世界有了更丰富的理解。

研究团队还开发了一套高效的数据收集系统。他们设计了一个智能调度器,能够自动为操作员安排不同的任务组合、物品搭配和背景设置,确保收集到的训练数据既丰富又多样化。这就像是为机器人准备了一个包含各种情境的"题库",让它能够学会举一反三。

**一、GR-3的核心架构:构建机器人的智能大脑**

GR-3的工作原理可以比作一个拥有超强学习能力的实习生。当你给它一个任务时,它首先会仔细观察周围的环境,就像用眼睛"扫描"房间一样。然后它会理解你说的话,分析你想要它做什么。最后,它会规划出一系列动作步骤来完成任务。

从技术角度来说,GR-3采用了一种叫做"视觉-语言-动作模型"的架构。这个名字听起来很复杂,但实际上就是将三种能力整合在一起:视觉理解(看懂环境)、语言理解(听懂指令)和动作生成(做出反应)。

系统的核心是一个经过大量训练的视觉-语言模型,这可以理解为机器人的"大脑皮层"。这个大脑已经通过学习互联网上的图片和文字,对世界有了基本的认识。在这个基础上,研究团队添加了一个专门负责动作规划的"小脑"——动作扩散变换器。

这个动作规划系统的工作方式很有趣。它不是简单地输出下一步要做什么,而是一次性规划出接下来几个步骤的动作序列。这就像下棋时不只考虑下一步,而是提前规划好几步棋一样。这种设计让机器人的动作更加流畅和连贯。

研究团队在设计过程中遇到了一个重要问题:训练过程经常不稳定。他们发现问题出在神经网络内部的数值计算上,就像做数学题时计算结果经常"爆表"一样。为了解决这个问题,他们在网络中添加了一种叫做RMSNorm的"稳定器",这个技术改进不仅让训练变得稳定,还显著提升了机器人理解和执行指令的能力。

GR-3的另一个巧妙设计是"任务状态预测"。系统会实时判断当前任务的状态:是正在进行中、已经完成、还是遇到了无法执行的情况。比如,如果你要求机器人"把蓝色的碗放到篮子里",但桌上根本没有蓝色的碗,系统会识别出这是一个无效指令,不会盲目执行错误的动作。

整个系统包含40亿个参数,这相当于人脑中神经连接的一个简化版本。虽然听起来数量庞大,但相比其他一些AI系统,GR-3在保持强大功能的同时,体积相对精简,这使得它能够在实际的机器人硬件上高效运行。

**二、创新训练方法:让机器人接受"通识教育"**

GR-3的训练过程可以比作培养一个多才多艺的学徒。传统的机器人训练就像只让学徒在工厂里重复练习同一个动作,而GR-3的训练更像是让学徒既在工厂里实践,又在图书馆里学习理论知识,还跟着师傅观摩各种技巧。

这种训练方法的核心思想是"多源数据融合"。研究团队收集了三种不同类型的数据来训练GR-3。第一种是机器人操作数据,这些数据记录了机器人在各种任务中的表现,就像学徒的实际操作记录。第二种是网络上的图像和文字数据,这些数据帮助机器人理解世界上各种物品的概念和属性,就像通过百科全书学习常识。第三种是人类操作数据,这些数据是通过VR设备收集的人类动作,就像让学徒观察师傅的手法。

在机器人操作数据的收集过程中,研究团队开发了一个智能的数据收集调度系统。这个系统就像一个严格的训练教练,会为每次训练安排不同的场景组合。它会告诉操作员这次要练习哪个动作、使用哪些物品、在什么样的背景环境中进行。这确保了训练数据的多样性,避免机器人只会应付固定的情况。

为了确保数据质量,研究团队还建立了严格的质量控制流程。每个收集到的操作演示都会经过仔细检查,不符合标准的数据会被过滤掉。这就像严格筛选教学材料一样,确保机器人学到的都是正确的操作方法。

网络数据的融合训练是GR-3的一大创新。研究团队精心挑选了大量的图像标注、视觉问答、图像定位和图像描述等任务的数据。这些数据涵盖了日常生活中可能遇到的各种物品、场景和概念。通过学习这些数据,GR-3不仅知道一个苹果长什么样,还知道苹果通常出现在哪里、有什么用途、和其他物品有什么关系。

更重要的是,研究团队开发了一套数据过滤和重新标注的流程,确保网络数据的质量。他们会剔除质量较差的图片和不准确的描述,然后对剩下的数据进行重新整理和标准化。这个过程就像编辑教科书一样,确保学习材料既准确又有用。

人类操作数据的收集则体现了另一种创新思路。传统上收集机器人训练数据需要专业操作员控制机器人完成任务,这个过程既缓慢又昂贵。而GR-3可以直接从人类的VR操作中学习,这大大提高了数据收集的效率。使用VR设备,一个小时可以收集约450个操作演示,而传统的机器人数据收集一个小时只能获得约250个演示。

这种跨模态的学习能力让GR-3能够快速适应新的任务和环境。当遇到训练时没见过的新物品时,它可以利用从网络数据中学到的常识来推理这个物品的属性和用途,然后结合从人类演示中学到的操作技巧来完成任务。

**三、ByteMini机器人:为GR-3量身打造的智能化身**

为了让GR-3的能力得到充分发挥,研究团队专门设计了一台名为ByteMini的双臂移动机器人。这台机器人可以说是GR-3的"物理化身",就像为一个优秀的司机配备了一辆性能卓越的赛车。

ByteMini的设计哲学体现在三个关键词:灵活性、可靠性和用户友好性。这台22自由度的机器人就像一个拥有超强身体协调能力的体操运动员,能够完成各种复杂精细的动作。

机器人的手臂采用了独特的球形腕关节设计,这是一个重要的技术突破。传统机器人的腕关节往往体积庞大,在狭小空间中难以灵活操作,就像戴着厚重手套试图穿针引线一样困难。而ByteMini的球形腕关节设计紧凑,能够在有限的空间中实现类似人类手腕的灵活转动。

更impressive的是,机器人的两条手臂可以向内弯曲,让双手能够在机器人胸前进行精细的协同操作。这种设计让机器人能够完成许多需要双手配合的复杂任务,比如折叠衣服或组装精密零件。

为了确保长期稳定运行,ByteMini采用了准直驱驱动原理的执行器。这种技术让机器人的动作更加平滑和精确,同时大大提高了系统的可靠性。就像优质汽车的发动机能够持续稳定运行一样,这些执行器能够承受数据收集和实验过程中的高强度使用。

机器人的移动平台集成了升降机构,可以在不同高度的工作台面间灵活调节。配备的双锂电池系统能够提供超过10小时的连续工作时间,确保长时间的实验和应用不会因电力不足而中断。

安全性方面,ByteMini配备了无线紧急停止按钮,操作人员可以在任何时候快速停止机器人的动作。这个设计体现了研究团队对安全性的重视,确保在实验和应用过程中人员安全得到保障。

机器人搭载了多个RGB-D摄像头,分别安装在头部和两个手腕上。头部摄像头提供全局视野,而手腕摄像头则专门用于近距离精细操作的观察。这种多视角的视觉系统让机器人能够同时掌握整体环境和局部细节,就像人类在工作时既要注意周围环境,又要专注于手头的具体操作。

为了提高易用性,研究团队还集成了便携式显示屏和小型计算机,这让整个系统更加自包含和便于操作。用户可以直接在机器人上监控运行状态和调整参数,而不需要额外的外部设备。

**四、全身合规控制系统:让机器人动作如行云流水**

ByteMini的控制系统采用了全身合规控制框架,这是一个听起来很技术化的名词,但实际上可以理解为让机器人全身协调配合的"指挥系统"。

传统的机器人控制往往将各个关节视为独立的部分分别控制,就像乐队中每个乐手都按照自己的节拍演奏一样,结果往往不够和谐。而全身合规控制则像一个优秀的指挥家,统筹协调机器人的所有关节,让它们配合产生流畅自然的整体动作。

这个控制系统会同时考虑机器人的操作能力优化、奇异点规避和物理关节限制等多个因素。简单来说,它会确保机器人在执行任务时始终保持最佳的工作姿态,避免出现"卡死"或"够不着"的尴尬情况,同时也不会让关节超出安全范围。

在数据收集阶段,研究团队使用了全身远程操作系统。操作员戴上Meta VR Quest头显,就可以直观地控制机器人的手臂、升降机构、夹爪和移动底座。这种操作方式就像在虚拟现实中"附身"到机器人上一样,让操作员能够自然地将人类的动作意图传递给机器人。

为了让GR-3生成的动作更加稳定流畅,研究团队还开发了轨迹优化算法。这个算法就像一个"动作美化师",会对GR-3输出的原始动作指令进行优化处理,确保机器人的运动轨迹平滑连续,避免出现突然的急转弯或不必要的抖动。

系统还集成了纯跟踪算法来优化移动路径规划。当机器人需要在房间中移动时,这个算法会计算出最优的行走路径,就像GPS导航系统为汽车规划最佳路线一样。

**五、三大挑战性任务:验证GR-3的真实能力**

为了全面验证GR-3的能力,研究团队设计了三个层次递进的挑战性任务:泛化抓取放置、长期任务餐桌清理和精细操作衣物整理。这三个任务就像是机器人能力的"三级考试",从基础的物品识别和操作,到复杂的多步骤规划,再到需要精细手部技巧的高难度任务。

**泛化抓取放置任务:测试基础理解和适应能力**

第一个任务看似简单,实际上是对机器人智能程度的基础检验。研究团队收集了101种不同物品,涵盖了日常生活中常见的各种类型,从厨房用具到办公用品,从玩具到电子设备。训练数据包含了35000个机器人操作轨迹,总计69小时的操作记录。

测试分为四个难度级别。基础级别在熟悉的环境中使用训练时见过的54种物品,这就像在自己家里找熟悉的东西。环境泛化级别将同样的物品放置在四个全新的环境中:收银台区域、会议室、办公桌和休息室,测试机器人是否能在不同背景下识别和操作相同物品。

指令泛化级别则更进一步,使用涉及抽象概念的复杂指令,比如"把左边的可乐放到纸箱里"或"把有触角的动物放到纸箱里"。这些指令需要机器人不仅识别物品,还要理解空间关系和物品属性。

最具挑战性的是物品泛化级别,使用45种训练时从未见过的新物品,其中70%以上属于全新的物品类别。这相当于让机器人处理从未接触过的物品,需要它运用已有知识进行推理和适应。

实验结果显示,GR-3在所有测试级别上都大幅超越了对比基准π0。在基础和环境泛化测试中,两个系统的性能相当,但在指令泛化测试中,GR-3的成功率达到77.1%,而π0只有40%。在最困难的物品泛化测试中,GR-3的成功率为57.8%,同样远超π0的40%。

更令人印象深刻的是GR-3的少样本学习能力。当为每个新物品提供仅10个人类演示后,GR-3在物品泛化任务上的成功率从57.8%提升到86.7%,而且对已见过的物品没有产生负面影响。这证明了系统具有快速适应新情况的能力。

**餐桌清理任务:检验长期规划和执行能力**

第二个任务模拟了现实生活中常见的餐桌清理场景,这是一个典型的多步骤、长时间任务。机器人需要将餐具放入餐具盒、把食物装入外卖盒、将垃圾丢入垃圾桶,整个过程需要机器人在不同位置之间移动,协调多个子任务。

研究团队为这个任务收集了101小时的机器人操作数据。任务的复杂性在于它需要机器人具备任务分解、路径规划和错误恢复等多种能力。由于工作区域较大,机器人需要移动移动底座才能够到所有需要清理的物品。

测试分为两种模式:平铺模式和指令跟随模式。在平铺模式下,机器人接收一个总体指令"清理餐桌",需要自主完成整个清理过程。在指令跟随模式下,机器人接收具体的子任务指令,如"把纸杯放到垃圾桶里"。

指令跟随模式包含六个不同的测试场景。基础场景使用与训练数据相似的物品布局。多物品场景在桌面上放置同一类别的多个物品,并要求机器人将所有同类物品移动到指定位置。多目标场景增加了一个编织篮作为额外的目标位置,机器人需要根据指令将餐具放入篮子或餐具盒。

多物品多目标场景结合了前两种复杂性,要求机器人将多个同类物品移动到两个不同目标位置之一。新目标场景测试机器人处理训练时未见过的物品-目标组合的能力,比如"把叉子放到垃圾桶里"。最具挑战性的无效任务场景要求机器人识别并拒绝执行不可能完成的指令。

实验结果显示,GR-3在两种模式下都显著优于基准方法。在指令跟随模式下,GR-3的成功率达到97.5%,而π0只有53.8%。GR-3能够准确理解各种复杂指令,区分不同类型的餐具,并且能够正确拒绝执行无效指令。

研究团队还进行了消融实验,验证了系统设计中两个关键组件的重要性。移除RMSNorm稳定化技术后,系统性能明显下降,特别是在指令跟随任务上几乎失效。移除任务状态预测功能也导致性能显著下降,证明了这个设计对于指令理解能力的重要性。

**衣物整理任务:挑战精细操作的极限**

第三个任务是最具挑战性的衣物整理,要求机器人将衣服挂到晾衣架上。这个任务需要处理柔性可变形物体,涉及复杂的双手协作和精细的力度控制。整个过程包括四个关键步骤:拿起衣架、将右肩部分套到衣架上、将左肩部分套到衣架上、将整个衣架挂到晾衣杆上。

研究团队为这个任务收集了116小时的机器人操作数据。任务的难点在于衣服作为柔性材料会发生各种不可预测的变形,而且每件衣服的材质、形状和尺寸都不相同。

测试包含三个场景。基础场景使用训练时见过的6件衣服,衣服的摆放位置与训练数据类似。位置变化场景将衣服进行旋转和皱褶处理,测试机器人处理非标准衣服摆放的能力。未见衣服场景使用4件训练时从未见过的衣服,包括两件短袖衣服(训练数据中全部是长袖)。

实验结果表明,GR-3在所有三个场景中都表现出色。在基础场景中达到86.7%的任务完成度,位置变化场景为83.9%,未见衣服场景为75.8%。这些结果证明了GR-3不仅能够处理复杂的精细操作任务,还能适应衣服材质和形状的变化。

通过详细分析任务执行过程,研究团队发现最具挑战性的步骤是将左肩部分套到衣架上。这是因为在右肩已经套好的情况下,左侧衣领往往被衣架遮挡,机器人需要小心地拉出衣领进行操作,同时避免衣架从夹爪中滑落。

**六、与最新基准的对比:展现领先优势**

为了客观评估GR-3的性能,研究团队选择了当前最先进的基准方法π0进行对比。π0是由Physical Intelligence公司开发的视觉-语言-动作模型,在机器人操作领域享有很高声誉。

对比实验严格遵循科学原则,确保公平性。研究团队使用π0官方提供的预训练模型,并在相同的数据集上进行微调。所有实验都在相同的硬件平台和环境条件下进行,使用相同的评估指标和测试协议。

在泛化抓取放置任务中,GR-3在指令泛化和物品泛化两个最关键的测试中显著优于π0。这表明GR-3在理解复杂指令和适应新物品方面具有明显优势。特别值得注意的是,当移除视觉-语言数据的联合训练时,GR-3的性能会下降到甚至低于π0,这证明了多模态联合训练策略的关键作用。

在餐桌清理任务中,两个系统的性能差距更加明显。GR-3几乎在所有测试场景中都能准确执行指令,而π0在处理复杂指令和新颖场景时经常出错。例如,π0无法准确区分叉子和勺子,在新目标场景中倾向于将物品放到训练时常见的位置而不是指令要求的位置。

在最具挑战性的衣物整理任务中,GR-3同样展现出明显优势。通过桑基图分析可以看出,虽然两个系统在任务的前几个步骤表现相近,但GR-3在最困难的左肩套衣架步骤上成功率更高,这体现了它在精细操作控制方面的优越性。

这些对比实验不仅验证了GR-3的技术先进性,也为未来的研究提供了有价值的参考。实验结果表明,多模态数据融合、架构设计优化和训练策略改进都是提升机器人智能程度的关键因素。

**七、技术创新点:三大突破性贡献**

GR-3的成功源于三个关键的技术创新,每一个都解决了当前机器人领域的重要挑战。

**多模态联合训练策略**

第一个创新是多模态数据的联合训练策略。传统的机器人训练依赖单一的操作数据,这就像只让学生看专业教材而不接触其他知识来源。GR-3打破了这个限制,同时利用机器人操作数据、网络视觉-语言数据和人类演示数据进行训练。

这种策略的关键在于如何有效融合不同类型的数据。机器人操作数据训练系统的动作生成能力,网络数据增强常识理解能力,人类演示数据提供快速适应的范例。研究团队设计了一个动态数据混合机制,在训练过程中自动调整不同数据源的比例,确保各种能力得到均衡发展。

更重要的是,这种训练策略赋予了GR-3强大的零样本泛化能力。当遇到训练时未见过的新物品时,系统可以利用从网络数据中学到的物品知识来推理其属性和用途,然后结合操作技能完成任务。

**架构设计优化**

第二个创新是神经网络架构的优化设计。研究团队发现传统的Transformer架构在机器人操作任务中存在训练不稳定的问题,这个问题在复杂的多模态训练中变得更加突出。

解决方案是在网络的关键位置添加RMSNorm标准化层。这个技术改进看似简单,但效果显著。它不仅解决了训练不稳定问题,还意外地大幅提升了系统的指令理解能力。这个发现表明,网络架构的细微调整可能对整体性能产生重大影响。

另一个重要的设计决策是采用流匹配技术进行动作生成,而不是传统的回归方法。流匹配能够生成更加多样化和自然的动作序列,提高了系统处理复杂任务的鲁棒性。

**任务状态感知机制**

第三个创新是任务状态感知机制的引入。系统会实时评估当前任务的执行状态,包括进行中、已完成和无效三种状态。这个设计让机器人具备了类似人类的"常识判断"能力。

当接收到无效指令时,比如要求操作不存在的物品,系统会拒绝执行而不是盲目尝试。这种能力对于实际应用至关重要,因为现实世界中的指令可能包含错误或不完整信息。

任务状态感知还帮助系统更好地理解复杂的多步骤任务。通过跟踪每个子任务的完成状态,系统可以更准确地规划后续动作,避免重复执行已完成的步骤或跳过必要的操作。

这三个技术创新相互配合,共同构成了GR-3的核心竞争优势。多模态训练提供了丰富的知识基础,架构优化确保了稳定高效的学习,状态感知机制增强了实际应用的可靠性。

**八、未来展望:迈向通用机器人助手的愿景**

GR-3的成功为机器人技术的发展开辟了新的道路,但研究团队也清醒地认识到当前系统的局限性和未来的发展方向。

**当前挑战与局限性**

尽管GR-3在多个任务上表现出色,但它仍然面临一些挑战。在处理涉及全新概念和物品的指令时,系统有时会出现理解错误。对于形状特殊或材质特殊的物品,抓取成功率还有提升空间。

更重要的是,作为基于模仿学习的系统,GR-3在遇到训练分布之外的异常状况时可能会陷入困境,缺乏自主恢复能力。这是所有模仿学习系统的共同挑战,需要通过引入强化学习或其他自主学习机制来解决。

**技术发展方向**

研究团队计划从多个维度继续改进系统。首先是扩大模型规模和训练数据量,通过更大规模的训练来提升系统处理新情况的能力。其次是改进训练算法,探索更有效的多模态数据融合方法。

在硬件方面,团队正在研究更先进的机器人平台,包括更灵巧的机械手和更精确的传感器系统。这些硬件改进将为算法提供更好的执行平台,实现更复杂和精细的操作任务。

另一个重要方向是引入强化学习机制,让系统能够从失败中学习并自主改进。这将帮助机器人在遇到异常情况时具备更强的适应和恢复能力。

**应用前景展望**

GR-3技术的成熟将为多个领域带来变革性影响。在家庭服务领域,未来的机器人助手将能够处理各种家务活动,从整理房间到准备简单餐食。在医疗护理领域,机器人可以协助护理人员进行日常护理工作,减轻人力负担。

在工业应用中,GR-3的技术可以应用于柔性制造系统,让机器人能够快速适应不同的生产任务而无需重新编程。在物流和零售领域,智能机器人可以处理更复杂的货物分拣和摆放任务。

**对机器人行业的影响**

GR-3代表的技术路线可能会引导整个机器人行业向更智能、更通用的方向发展。多模态数据训练、大规模预训练模型和快速任务适应等技术将成为未来机器人系统的标准配置。

这种发展趋势也将推动相关产业生态的完善,包括专门的机器人训练数据服务、通用机器人操作系统和标准化的评估体系等。

**社会影响考量**

随着机器人技术的快速发展,社会也需要为这种变化做好准备。这包括相关法律法规的制定、从业人员的技能转型培训,以及确保技术发展惠及更广泛的社会群体。

研究团队强调,开发这些技术的根本目的是为人类服务,帮助人们完成繁重或危险的工作,而不是简单地替代人力。未来的发展需要在技术进步和社会责任之间找到平衡。

说到底,GR-3只是通向真正通用机器人助手这个宏伟目标路上的一个重要里程碑。虽然我们距离科幻电影中那种能够像人类一样自然智能的机器人助手还有距离,但GR-3展示的技术路径让这个梦想变得更加现实可及。当我们看到机器人能够理解"把最大的物品放到篮子里"这样的抽象指令,并且能够在从未见过的环境中准确执行时,我们不难相信,在不久的将来,机器人助手将真正走进我们的日常生活,成为我们可靠的伙伴。

这项研究不仅在技术上取得了突破,更重要的是为整个行业指明了方向。通过将视觉理解、语言理解和动作执行三大能力有机结合,通过多模态数据的联合训练来获得更丰富的世界知识,通过快速的少样本学习来适应新场景,GR-3为我们展现了未来智能机器人的雏形。对于关注机器人技术发展的读者来说,这篇研究论文绝对值得深入了解,你可以通过项目主页https://seed.bytedance.com/GR3获取更多演示视频和技术细节。

Q&A

Q1:GR-3和普通机器人有什么区别?它为什么这么厉害? A:GR-3最大的不同是它能"看懂、听懂、做得到"。普通机器人只能执行预设程序,而GR-3能理解人类的自然语言指令,观察环境,然后灵活完成任务。它的厉害之处在于采用了多模态联合训练,不仅学习机器人操作数据,还学习了大量网络图像和文字,拥有了更丰富的世界知识。

Q2:GR-3能够处理它从没见过的物品吗? A:是的,这正是GR-3的核心优势之一。在测试中,面对70%以上从未见过的新物品类别,GR-3仍能达到57.8%的成功率。它能够利用从网络数据中学到的常识知识来推理新物品的属性和用途,然后结合已有的操作技能完成任务。

Q3:普通人什么时候能用上这种智能机器人? A:虽然GR-3展示了令人兴奋的能力,但距离商业化应用还需要时间。目前系统在处理特殊形状物品、异常情况恢复等方面还有局限性。研究团队正在扩大模型规模、改进算法,并计划引入强化学习机制。预计在家庭服务、医疗护理等领域可能会率先看到类似技术的应用。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-