微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

斯坦福大学让机器人学会"看视频学本领"：从电影里的动作到真实世界的操作

机器人技术计算机视觉深度学习

斯坦福大学让机器人学会"看视频学本领"：从电影里的动作到真实世界的操作

作者：科技行者

2026-01-04 09:48

分享至：

斯坦福大学研究团队开发的Dream2Flow系统通过让机器人观看AI生成的演示视频来学习操作技能。系统提取视频中物体的3D运动轨迹作为指导，让机器人能够零样本完成多种日常任务，包括移动物品、开关门窗等操作，在真实环境测试中取得了最高80%的成功率。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-01-04 09:48 • 科技行者

当我们人类想学一项新技能时，最常见的方法就是看别人怎么做——看视频教程、观察师傅操作，然后模仿着练习。斯坦福大学的研究团队在2024年12月发表的一项研究中，成功地让机器人也掌握了这种"看视频学本领"的能力。这项名为"Dream2Flow"的研究由斯坦福大学的Karthik Dharmarajan、Wenlong Huang、Jiajun Wu、Li Fei-Fei和Ruohan Zhang等学者联合完成，论文编号为arXiv:2512.24766v1。

这个研究解决了一个令人头疼的问题：如何让机器人理解并执行那些看似简单的日常任务。比如说，当你告诉机器人"把面包放进碗里"时，它需要理解什么是面包、什么是碗，更重要的是要知道怎样抓取、移动和放置这些物品。传统的方法需要程序员为每个动作写出详细的指令，就像给机器人编写一本超级详细的操作手册。但现实世界太复杂了，物品的形状、位置、重量都千变万化，写不完的手册根本无法涵盖所有情况。

研究团队想到了一个巧妙的办法：既然现在的AI视频生成技术已经能够根据文字描述生成非常逼真的视频，那何不让机器人先"看"一段展示如何完成任务的视频，然后从中学习物体应该如何移动？这就好比你想学做菜，先看一段烹饪视频了解食材应该怎么处理，然后用自己的方式在厨房里重现这道菜。

Dream2Flow的核心创新在于引入了一个叫做"3D物体流"的中间表示方法。可以把这个概念理解为物体在三维空间中的运动轨迹记录。就像我们用GPS追踪一辆汽车的行驶路线一样，3D物体流记录了物体在完成任务过程中每个瞬间的位置变化。这种表示方法的妙处在于，它把"要做什么"和"怎么做"分离开来。视频告诉机器人物体应该朝哪个方向移动、移动多远，而机器人的控制系统则负责找出用什么样的动作来实现这种移动。

整个系统的工作流程可以比作一个翻译过程。首先，研究人员输入一张显示初始场景的照片和一句任务描述，比如"打开烤箱门"。接着，AI视频生成模型会创造一段展示人类执行这个任务的视频。然后，系统会分析这段视频，识别出需要操作的物体（比如烤箱门的把手），并追踪它在整个过程中的移动轨迹。最后，机器人的控制系统会根据这个轨迹规划出具体的动作序列来复现相同的物体移动。

这种方法的优势是显而易见的。传统的机器人编程需要为每种可能的情况预先设计解决方案，就像为每道菜都准备一份详细食谱。而Dream2Flow更像是教会了机器人烹饪的基本原理，让它能够根据看到的示范举一反三。更重要的是，这种方法能够处理各种不同类型的物体：硬质物品（如杯子、盒子）、有关节的物品（如柜门、抽屉）、柔软的物品（如毛巾、面团），甚至是颗粒状物品（如米粒、沙子）。

一、从视频生成到物体轨迹：让机器人理解"应该怎么动"

Dream2Flow系统的第一步是生成一段演示视频。这个过程就像是为机器人请了一位虚拟教练。研究人员将拍摄的工作场景照片和文字任务描述输入到现成的AI视频生成模型中。有意思的是，他们特意在照片中移除了机器人，只保留需要操作的物品和环境。这样做的原因很实用：目前的视频生成模型主要是在人类活动的视频上训练的，它们更擅长生成人类操作物品的画面，而不是机器人的动作。

这就好比你想学一道菜，与其看机器人厨师的演示，不如看真正的厨师是怎么做的，因为人类厨师的动作更自然、更符合物理规律。研究团队发现，当视频中包含机器人时，生成的画面往往不够真实，物体的移动轨迹也不太合理。因此，他们选择让AI生成人类操作的视频，然后从中提取物体的运动信息。

生成视频后，系统需要解决一个技术难题：如何从二维视频中恢复三维的空间信息？这就像从一张平面照片中推断出物体的真实位置和深度。研究团队使用了专门的深度估计工具来分析视频中每个像素点的距离信息。但由于单个摄像头拍摄的视频本身缺乏准确的深度信息，系统需要通过对比初始场景的真实深度数据来校准这些估计结果。

接下来是追踪物体运动的关键步骤。系统首先需要识别出视频中哪些部分是需要操作的目标物体。这个过程用到了两个强大的AI工具：一个负责根据文字描述在图像中定位物体，另一个负责精确地分割出物体的轮廓。比如，当任务是"把面包放进碗里"时，系统会在视频的第一帧中找到面包，然后用分割工具勾勒出面包的精确边界。

有了目标物体的位置信息，系统就开始追踪它在整个视频中的移动轨迹。这个过程类似于在拥挤的人群中跟踪一个特定的人：系统会在面包表面选择一些特征明显的点，然后逐帧追踪这些点的位置变化。通过组合追踪数据和深度信息，系统最终得到了物体在三维空间中的完整运动轨迹，也就是所谓的"3D物体流"。

这种3D物体流包含了完成任务所需的核心信息：物体应该朝哪个方向移动、移动的速度有多快、在什么时候停止等等。更重要的是，这种表示方法与具体的执行方式无关。无论是人类用手操作，还是机器人用机械臂操作，物体的理想移动轨迹都是相同的。这为后续的机器人动作规划奠定了基础。

二、从轨迹到动作：让机器人找到"怎么实现"

有了3D物体流这个"移动蓝图"，下一步就是让机器人弄清楚如何用自己的方式来实现这种移动。这个过程就像给机器人出了一道几何题：已知物体需要从A点移动到B点，请问机械臂应该怎样运动？

研究团队将这个问题转化为一个优化问题。简单来说，就是让机器人在所有可能的动作方案中寻找最佳选择。评价标准有两个：第一，物体是否能够按照预期轨迹移动；第二，机器人的动作是否合理（比如不能超出关节活动范围，动作要尽量平滑）。这就像在导航时，GPS不仅要找到到达目的地的路径，还要考虑路况、限速等因素来选择最优路线。

针对不同类型的任务，研究团队设计了不同的实现策略。对于需要推动物体的任务（比如把T形积木推到指定位置），系统学习了一个预测模型，能够预估不同推动方式会产生什么样的结果。然后通过随机尝试多种推动参数（位置、方向、力度），选择最接近预期轨迹的方案。

对于需要抓取和移动物体的任务，系统采用了"刚性抓取"的假设，也就是说，一旦机器人抓住物体，物体就会随着机械臂一起移动，就像物体被粘在机械臂上一样。这种简化虽然不能处理所有复杂情况，但对于大多数日常任务来说已经足够有效。

特别有趣的是系统的抓取点选择策略。由于不同的抓取位置会导致完全不同的操作效果（比如抓住门把手和抓住门边的效果截然不同），系统需要智能地选择抓取位置。研究团队发现了视频生成模型的一个意外优势：这些模型生成的视频中，人类的手通常会自然地抓住物体的合适位置。因此，系统会分析视频中手部的位置，优先选择靠近手部的抓取点。这种方法虽然听起来有些"投机取巧"，但实际效果相当不错。

对于更复杂的任务，比如开门这种需要精确协调的动作，研究团队还尝试了强化学习的方法。这种方法让机器人在虚拟环境中反复练习，通过试错来学习最佳的动作策略。有趣的是，当相同的任务被分配给不同类型的机器人时，它们会自发地找到适合自己身体结构的解决方案。比如，四足机器人会利用移动底座来扩大操作范围，而人形机器人则会用手指和手掌的不同部位来实现更稳定的抓取。

三、实验验证：从虚拟世界到现实操作

为了验证Dream2Flow系统的实际效果，研究团队设计了一系列涵盖不同难度和类型的测试任务。这些任务就像是机器人的"期末考试"，检验它是否真正学会了从视频中理解和执行操作。

在虚拟环境中的测试相对简单一些，主要包括Push-T任务。这个任务要求机器人将一个T形积木推动并旋转到指定的位置和朝向。听起来简单，实际上需要精确的力度控制和角度计算。就好比玩台球时，你不仅要让球进洞，还要控制球的最终位置和角度。研究团队在10种不同的初始配置下进行了100次测试，结果显示系统能够在52%的情况下成功完成任务。

这个成功率可能看起来不够高，但考虑到系统完全是从零开始学习，没有接受过任何针对性训练，这个结果其实相当令人印象深刻。更重要的是，研究团队发现失败的原因主要集中在视频生成环节：当生成的视频中物体发生不合理的形变（比如T形积木突然变成其他形状）时，后续的轨迹追踪就会出现问题。

在真实世界的测试中，挑战变得更加复杂。研究团队选择了四种不同类型的任务来全面评估系统性能。"把面包放进碗里"这个看似简单的任务其实考验了系统对柔软物体的处理能力，因为面包在被抓取时会发生轻微变形。"打开烤箱门"则涉及到铰链机构的理解，系统需要识别出门的旋转轴心并沿着正确的弧线移动。"用围巾盖住碗"是最具挑战性的任务之一，因为布料是完全柔性的，其行为很难预测。"打开抽屉"虽然看起来简单，但需要精确的直线拉动动作。

实验结果显示，Dream2Flow在大多数任务上都表现出了相当的能力。特别是在"把面包放进碗里"和"打开烤箱门"这两个任务上，成功率达到了80%。这个结果证明了系统确实能够处理不同类型的物体和操作方式。相比之下，传统的基于光流或刚体变换的方法在相同任务上的表现明显较差，这突出了3D物体流表示方法的优势。

研究团队还进行了一系列鲁棒性测试，检验系统在面对环境变化时的适应能力。他们改变了物体的种类（比如用甜甜圈代替面包）、背景环境、以及观察角度等因素。结果显示，系统在大多数变化情况下都能保持相对稳定的性能，这说明从视频生成模型中学到的知识确实具有一定的泛化能力。

特别值得一提的是系统的多任务适应性。研究团队发现，在相同的场景设置下，只需要改变文字指令，系统就能执行不同的任务。比如在摆放着面包、甜甜圈和杯子的桌面上，输入"把面包放进绿色碗里"和"把杯子放进绿色碗里"会得到完全不同但都正确的操作序列。这种灵活性是传统预编程方法很难实现的。

四、技术细节：解决实际应用中的挑战

在将Dream2Flow从概念转化为实用系统的过程中，研究团队遇到并解决了许多技术挑战。这些挑战就像是在搭建房屋时遇到的各种实际问题，需要巧妙的工程方案来解决。

首先是视频质量问题。虽然现代AI视频生成模型已经相当先进，但它们仍然会产生一些不符合物理规律的画面。最常见的问题包括物体形变（一个苹果突然变成橙子）和物体凭空出现（桌上突然多了一个原本不存在的杯子）。这些问题对于人类观看者来说可能只是小瑕疵，但对于需要精确追踪物体轨迹的机器人系统来说却是致命的。

为了应对这个挑战，研究团队开发了多种过滤和校正机制。他们使用专门的检测算法来识别视频中的异常变化，当发现物体发生不合理形变时，系统会尝试使用前后帧的信息来修复轨迹。此外，他们还发现不同的视频生成模型有不同的"擅长领域"：有些模型更适合生成室内场景，有些则在处理物体交互方面表现更好。

深度估计的准确性是另一个关键挑战。由于单摄像头视频本身不包含准确的距离信息，系统需要通过算法来估计每个像素点的深度。这个过程容易受到光照变化、物体反射等因素的影响。研究团队的解决方案是将估计的深度信息与初始场景的真实深度数据进行对比校准，就像用标准尺子来校正一把可能不准确的尺子。

物体追踪的连续性也是一个技术难点。在视频播放过程中，目标物体可能会被遮挡、旋转或移动到画面边缘，这都会导致追踪失败。系统采用了多点追踪策略：不是追踪物体上的单个点，而是同时追踪多个特征点。当某些点丢失时，其他点仍然可以提供位置信息。这就像用多个GPS定位器来追踪一辆汽车，即使某个定位器失效，其他定位器仍然可以提供准确的位置信息。

机器人动作规划方面，系统需要处理复杂的约束条件。机械臂的每个关节都有活动范围限制，某些姿态可能导致关节冲突或者超出工作范围。此外，动作还需要保持平滑性，避免突然的加速或减速。研究团队使用了数值优化方法来解决这个多约束问题，就像在有限的预算和时间限制下安排一次完美的旅行路线。

对于不同类型的物体，系统还需要采用不同的处理策略。刚性物体（如杯子、盒子）相对简单，它们的形状在操作过程中基本保持不变。柔性物体（如毛巾、面团）则复杂得多，因为它们的形状会随着操作而改变。颗粒状物体（如大米、豆子）更是挑战，因为个别颗粒的运动看起来毫无规律，但整体却遵循一定的流动模式。

研究团队针对每种类型开发了专门的算法。对于刚性物体，他们使用传统的刚体运动模型；对于柔性物体，他们追踪物体表面的多个关键点来捕捉变形信息；对于颗粒状物体，他们关注的是整体的流动趋势而非个别颗粒的运动。

五、系统性能：不同场景下的表现分析

Dream2Flow系统在不同类型任务上的表现差异，反映了当前技术水平的真实状况。就像一位新手厨师在面对不同菜谱时会有不同的成功率一样，这个系统在处理各种操作任务时也展现出了明显的强弱区别。

在处理涉及刚性物体的简单移动任务时，系统表现最为出色。比如"把面包放进碗里"这类任务，成功率可以达到80%。这类任务的优势在于物体形状稳定，移动路径相对简单，而且视频生成模型对这类常见的日常动作已经有了充分的"理解"。系统能够准确识别抓取点，规划出合理的移动轨迹，并且机器人能够可靠地执行这些动作。

涉及关节机构的任务，如"打开烤箱门"，同样取得了不错的成果。这类任务的关键在于理解旋转运动的轴心和方向。研究团队发现，视频生成模型在这方面表现出了令人惊讶的准确性——它们生成的开门动作通常符合真实的物理约束。不过，这类任务对机器人的执行精度要求更高，因为稍微的角度偏差就可能导致操作失败。

最具挑战性的是涉及柔性材料的任务，比如"用围巾盖住碗"。这类任务的难点在于布料的行为很难预测，其运动轨迹受到重力、空气阻力、材质特性等多种因素影响。虽然系统的成功率相对较低（30%），但考虑到这类任务连人类都需要一定技巧才能做好，这个结果已经展现了技术的潜力。

研究团队还测试了系统在面对环境变化时的适应能力。当他们改变物体的颜色、大小或材质时，系统的性能出现了一些有趣的变化。比如，用较大的面包替换较小的面包时，成功率略有下降，因为较大的物体需要调整抓取策略和移动路径。但总体来说，性能变化不大，说明系统确实学到了一些可以迁移的通用技能。

背景环境的变化对系统性能的影响相对较小。无论是在木质桌面还是金属台面上操作，系统都能保持相似的成功率。这个结果很重要，因为它说明系统关注的是物体本身的运动规律，而不是过度依赖环境细节。

观察角度的变化带来了一些意外的发现。当摄像头从侧面移动到正上方时，某些任务的成功率实际上有所提升。这可能是因为俯视角度能够更清楚地显示物体在水平面上的移动轨迹，减少了深度估计的误差。

系统的执行速度也是一个重要考量因素。从接收任务指令到开始执行动作，整个处理过程需要3到11分钟，其中大部分时间花在视频生成上。这个速度对于研究和开发来说是可以接受的，但距离实际应用还有差距。不过，随着视频生成技术的快速发展，这个瓶颈很可能在不久的将来得到解决。

在与传统方法的对比测试中，Dream2Flow展现出了明显的优势。传统的基于密集光流的方法在处理复杂物体运动时往往会产生噪音和不连续性，导致机器人执行时出现抖动或偏差。而Dream2Flow提取的3D物体流更加平滑和稳定，机器人的动作也更自然。

六、技术突破：解决机器人学习的根本问题

Dream2Flow系统最重要的贡献并不只是提高了某些任务的成功率，而是为机器人学习提供了一种全新的思路。这种思路可能会改变我们对机器人编程和训练的根本认识。

传统的机器人编程方式就像是写一本超级详细的操作手册。程序员需要预见所有可能的情况，并为每种情况编写相应的处理代码。这种方法在面对标准化工业环境时表现不错，但在复杂多变的日常环境中就显得力不从心。每当环境发生微小变化时，整个程序可能就需要重新调整。

Dream2Flow引入的"从视频中学习"方法则完全不同。它更像是教会机器人一种学习能力，而不是灌输具体的操作指令。机器人通过观察视频中的物体运动模式，理解了"什么是合理的移动方式"，然后用自己的方式来复现这种移动。这种方法的最大优势是通用性和适应性。

3D物体流这个中间表示的引入，巧妙地解决了一个长期困扰机器人学习的问题：如何跨越不同操作主体之间的差异。人类用手操作物品的方式和机器人用机械臂操作的方式截然不同，但物体的理想运动轨迹是相同的。通过关注物体应该如何移动，而不是操作者应该如何行动，系统绕过了直接的动作模仿，找到了更本质的学习目标。

这种方法的另一个重要特点是能够处理多种类型的物体和操作方式。无论是推、拉、抓、放，还是刚性、柔性、颗粒状物体，系统都可以用统一的框架来处理。这种统一性大大减少了需要专门开发的算法数量，也降低了系统的复杂度。

从技术角度来看，Dream2Flow成功整合了多个前沿AI技术：视频生成、目标检测、语义分割、点追踪、深度估计等。但更重要的是，它展示了如何将这些原本独立的技术有机地结合起来，创造出超越各部分简单相加的整体效果。

系统的零样本学习能力也值得特别关注。在没有接受任何针对性训练的情况下，系统就能处理各种新任务。这种能力来自于视频生成模型在大量人类活动视频上的预训练，以及3D物体流表示方法的通用性。这为未来的机器人系统指出了一个重要方向：与其为每个具体任务收集训练数据，不如充分利用已经存在的大规模视频数据。

不过，这个系统也暴露出了当前技术的一些局限性。对刚性抓取假设的依赖限制了系统处理精细操作的能力。比如，它无法处理需要调整抓取力度的任务，也无法执行需要手指精细配合的操作。视频生成质量的不稳定性也是一个需要持续改进的问题。

七、实际应用：从实验室走向真实世界

虽然Dream2Flow目前还是一个研究原型，但它已经展现出了走出实验室、进入实际应用的潜力。研究团队在真实环境中进行的测试，不仅验证了技术的可行性，也揭示了在实际部署中需要考虑的各种因素。

在真实世界的应用中，环境的不确定性是最大的挑战。实验室环境相对可控，光照稳定、背景简洁、干扰因素较少。而真实环境则充满了变数：光线会随时间变化，背景可能很杂乱，还可能有其他人或物体的干扰。研究团队发现，这些因素对系统性能确实有影响，但影响程度在可接受范围内。

物体识别和分割的准确性在真实环境中面临更大考验。当桌面上摆放着多个相似物品时，系统需要准确地识别出目标物体。研究团队使用的目标检测和语义分割工具在大多数情况下都能胜任这个任务，但偶尔也会出现混淆。比如，当桌上同时有绿色碗和蓝色碗时，系统有时会错误地选择目标。

机器人硬件的限制也是实际应用中需要考虑的重要因素。实验中使用的Franka机械臂虽然精度较高，但工作范围有限，负载能力也不算强。某些任务可能需要更长的机械臂或更大的力矩输出。此外，机械臂的安全性也是一个重要考虑：在人类可能接近的环境中工作时，机器人必须能够检测并避免意外碰撞。

系统的处理速度在实际应用中是一个不可忽视的因素。目前3-11分钟的处理时间对于大多数实际应用来说都太长了。不过，这个问题有望通过技术进步得到解决。视频生成模型的推理速度正在快速提升，专门针对机器人应用优化的模型也在开发中。

成本效益是另一个实际考量。Dream2Flow系统需要相对强大的计算资源来运行视频生成和处理算法，这增加了部署成本。但从另一个角度看，系统的零样本学习能力大大减少了数据收集和模型训练的成本。对于需要快速适应新任务的应用场景，这种权衡可能是值得的。

研究团队还进行了一些扩展性测试，验证系统在不同类型机器人上的表现。他们发现，相同的3D物体流可以被不同构型的机器人使用。四足机器人会充分利用自己的移动能力来扩大操作范围，而人形机器人则会发挥手指的灵活性。这种适应性为系统的广泛应用奠定了基础。

在一些具体的应用场景中，Dream2Flow已经展现出了实用价值。比如在家庭服务机器人领域，系统能够处理许多常见的家务任务：整理桌面物品、开关柜门、简单的食物准备等。在仓储物流领域，系统可以协助处理各种形状和尺寸的包裹。在医疗辅助领域，系统可能帮助行动不便的患者进行一些日常操作。

八、未来发展：技术演进的方向

Dream2Flow虽然在当前阶段就展现出了令人印象深刻的能力，但研究团队和整个领域都清楚地认识到，这只是一个起点。未来的发展方向既包括对现有技术的改进，也包括全新概念和方法的探索。

视频生成技术的快速进步将直接推动Dream2Flow性能的提升。目前的视频生成模型在处理复杂物理交互时仍然存在不足，但这个问题正在被积极解决。新一代的视频模型不仅在视觉质量上更加逼真，在物理合理性方面也有显著改善。更重要的是，专门针对机器人应用的视频生成模型正在开发中，这些模型将更好地理解物体的物理属性和交互规律。

3D物体流的表示方法也有很大的改进空间。目前的方法主要关注物体表面关键点的运动轨迹，但这种表示方式对于某些复杂操作来说可能不够充分。研究人员正在探索更丰富的表示方法，比如包含力和扭矩信息的动力学流，或者能够描述物体内部应力分布的场表示。

机器人执行能力的提升是另一个重要方向。现有的刚性抓取假设虽然简化了问题，但限制了系统的应用范围。未来的系统需要能够处理更精细的操作，比如调整抓取力度、进行精密组装、处理易损物品等。这需要更先进的传感器、更灵活的机械结构，以及更智能的控制算法。

多模态感知的融入将大大增强系统的鲁棒性。目前的系统主要依赖视觉信息，但在某些情况下，触觉、听觉甚至嗅觉信息也可能很重要。比如，在处理食物时，触觉可以帮助判断成熟度；在组装机械部件时，听觉可以提供接触和配合的反馈。

实时性能的优化是实际应用的关键需求。未来的系统需要能够在几秒钟内完成从任务描述到开始执行的整个过程。这不仅需要算法优化，也需要专门的硬件加速。边缘计算和专用AI芯片的发展为这个目标提供了技术支撑。

学习能力的增强是长远发展的重要方向。现有的系统主要是一次性地从视频中提取信息，但理想的系统应该能够通过执行经验不断改进自己的性能。这需要结合强化学习、终身学习等技术，让机器人能够从成功和失败中学习，逐步提高操作技能。

安全性和可靠性的保障将越来越重要。随着机器人系统在人类环境中的应用越来越广泛，确保操作安全成为首要任务。这需要从系统设计的各个层面考虑安全因素：视频生成要避免产生危险的操作序列，物体流规划要考虑碰撞避免，机器人执行要有紧急停止机制。

人机协作能力的发展也是一个重要趋势。未来的系统不应该只是独立完成任务，而应该能够与人类用户进行有效协作。这包括理解人类的意图和偏好、接受实时指导和修正、以及在遇到困难时寻求人类帮助。

随着技术的不断发展和应用场景的扩展，Dream2Flow代表的这种"从视频学习"的方法可能会成为机器人智能的一个重要组成部分。它不仅为解决具体的操作任务提供了新的思路，更重要的是为实现真正智能的、能够快速适应新环境和新任务的机器人系统指明了方向。

说到底，Dream2Flow这项研究展示了一个令人兴奋的可能性：机器人可能不再需要针对每个任务进行专门编程，而是能够像人类一样通过观察和模仿来学习新技能。虽然距离这个目标还有很长的路要走，但这项研究无疑迈出了重要的一步。对于普通人来说，这意味着未来的家庭服务机器人可能会更加智能和实用，能够处理更多样化的日常任务。对于整个机器人行业来说，这种方法可能会改变机器人系统的设计和开发模式，让机器人真正走入千家万户成为可能。

Q&A

Q1：Dream2Flow是怎么让机器人学会看视频做事的？

A：Dream2Flow先用AI根据文字描述生成一段演示视频，然后从视频中提取物体的3D运动轨迹（叫做3D物体流），最后让机器人按照这个轨迹来操作物体。就像你看烹饪视频学做菜，先看别人怎么处理食材，再用自己的方式重现这个过程。

Q2：Dream2Flow能处理哪些类型的任务？

A：系统可以处理多种日常任务，包括移动硬质物品（把面包放进碗里）、操作关节机构（开烤箱门、拉抽屉）、处理柔软物品（用围巾盖碗）等。在真实环境测试中，"放面包"和"开烤箱"任务的成功率达到了80%。

Q3：Dream2Flow技术距离实际应用还有多远？

A：目前系统从接收指令到开始执行需要3-11分钟，主要时间花在视频生成上，这限制了实际应用。不过随着视频生成技术的快速发展，处理速度问题有望很快解决。系统已经能在真实环境中完成多种家务任务，展现出了实用潜力。

机器人技术计算机视觉深度学习

分享至