微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 梦想成真!港大团队让AI机器人学会"看图规划",视觉理解与动作控制完美融合

梦想成真!港大团队让AI机器人学会"看图规划",视觉理解与动作控制完美融合

2025-12-31 20:15
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-12-31 20:15 科技行者

这项由香港大学的叶嘉程、龚善山等研究人员与华为技术有限公司合作完成的研究发表于2025年12月,论文编号为arXiv:2512.22615v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当我们看到一个凌乱的厨房时,大脑会自动规划清理步骤:先收拾桌面,再洗碗,最后擦拭台面。这种看图做事的能力对人类来说再自然不过,但对AI来说却是个巨大挑战。现有的AI视觉语言模型就像只会"看图说话"的学生,能描述看到什么,却不知道该怎么行动。而机器人虽然能执行动作,但缺乏对视觉信息的深度理解,就像盲人摸象一样只能机械地重复预设动作。

港大研究团队最近取得了突破性进展,他们开发出了Dream-VL和Dream-VLA两个模型,让AI首次真正具备了"看图规划"的能力。这就像给机器人装上了既会看又会想的大脑,不仅能理解眼前的场景,还能制定出完整的行动方案。更令人兴奋的是,这些模型的表现已经达到甚至超越了目前最先进的AI系统。

这项研究的核心创新在于使用了一种全新的"扩散语言模型"作为AI的大脑。传统的AI模型就像按照固定剧本一字一句念台词的演员,只能按顺序生成内容,无法回头修改。而扩散模型更像一位画家,可以在画布上反复修改完善,直到创作出满意的作品。这种双向思考的能力让AI在处理复杂的视觉规划任务时表现得更加出色。

研究团队在多个权威测试中验证了模型的能力。在LIBERO机器人操作测试中,Dream-VLA达到了97.2%的平均成功率,在SimplerEnv测试中也取得了领先成绩。这些数字背后意味着,AI已经能够像熟练工人一样,根据看到的场景自主完成复杂的操作任务。

一、扩散模型:AI思维方式的革命性突破

要理解这项研究的重要性,我们需要先了解AI是如何"思考"的。传统的AI语言模型采用自回归方式工作,就像写作文时必须按顺序从第一个字开始写,写完一个字才能写下一个字,而且写过的内容无法修改。这种思维方式在处理简单对话时还算有效,但面对需要全局规划的复杂任务时就显得力不从心了。

港大研究团队采用的扩散语言模型则完全不同。如果说传统模型像是在黑暗中摸索前进,那么扩散模型就像是在明亮的房间里规划路线。它可以同时考虑所有相关信息,反复调整和优化方案,直到找到最佳解决路径。这种双向处理能力让AI在制定长期计划时表现得更加智能和高效。

具体来说,扩散模型的工作过程类似于雕刻家创作雕塑。雕刻家首先在脑海中构思整体形象,然后从一块粗糙的石头开始,通过反复雕琢和调整,逐步呈现出精美的艺术品。扩散模型也是如此,它从一个包含噪声的初始状态开始,通过多次迭代优化,最终生成符合要求的输出结果。这种迭代优化的特性使得模型能够产生更连贯、更符合全局目标的规划方案。

研究显示,这种思维方式的改变带来了显著的性能提升。在需要长期规划的视觉任务中,扩散模型比传统自回归模型表现出更强的全局一致性和逻辑连贯性。这就像让AI从只会按部就班执行指令的机器人,升级成了能够灵活思考和规划的智能助手。

二、Dream-VL:让AI真正"看懂"世界的智能眼睛

Dream-VL是研究团队开发的第一个基于扩散模型的视觉语言模型。如果把传统的视觉AI比作只会背书的学生,那么Dream-VL就像一个既有观察力又有分析能力的侦探,不仅能看到表面现象,还能理解其中的深层含义和相互关系。

这个模型的训练过程就像培养一个全能型人才。研究团队收集了1200万个涵盖数学解题、文字识别、领域推理等多样化的训练样本,就像给AI学生准备了一套包罗万象的教材。通过三个阶段的循序渐进训练,Dream-VL逐步掌握了从基础视觉理解到复杂多模态推理的各种技能。

在第一阶段,模型学习基本的视觉语言对应关系,就像学习汉字和图像的对应关系。第二阶段扩展到单图像理解,让模型能够深度分析单个图像中的复杂信息。第三阶段则进入多图像和视频理解,培养模型处理动态和多元视觉信息的能力。这种渐进式训练确保了模型在每个层面都有扎实的基础。

Dream-VL在多个权威测试中展现了令人瞩目的表现。在数学视觉推理测试MathVista中,它达到了63.1%的准确率,在多学科知识测试MMMU中获得了52.2%的成绩,这些表现已经接近甚至超过了一些使用大量商业数据训练的顶级模型。更重要的是,Dream-VL在文档理解和图表分析等实用任务中表现尤其突出,在DocVQA测试中达到了94.4%的准确率。

特别值得注意的是Dream-VL在视觉规划任务中的卓越表现。在ViPlan基准测试中,该模型不仅要理解复杂的视觉场景,还要生成结构化的行动序列。这就像要求AI不仅能看懂一张乱糟糟的房间照片,还要制定出详细的整理计划。Dream-VL在这类需要全局规划的任务中显著超越了传统的自回归模型,证明了扩散架构在处理复杂推理任务时的独特优势。

三、Dream-VLA:从"看懂"到"会做"的智能飞跃

如果说Dream-VL让AI学会了"看懂"世界,那么Dream-VLA则更进一步,让AI真正学会了"做事"。这就像从只会纸上谈兵的理论家升级为能够实际操作的技术专家。Dream-VLA是在Dream-VL基础上,通过大规模机器人操作数据训练而成的视觉语言行动模型。

Dream-VLA的训练过程就像培养一个全能型技工。研究团队使用了包含97万个机器人操作轨迹的Open-X Embodiment数据集,这些数据涵盖了各种不同的机器人平台、操作任务和环境场景。通过学习这些丰富多样的操作经验,Dream-VLA掌握了从高级语义理解到精确动作控制的完整技能链。

这种训练策略的巧妙之处在于保持了模型架构的一致性。从语言模型到视觉语言模型,再到视觉语言行动模型,Dream-VLA在整个发展过程中始终使用相同的扩散架构,就像一个人从学会说话、看图,到最终学会做事,使用的都是同一套思维方式。这种一致性避免了传统方法中因为架构变化导致的性能损失,让模型能够无缝地将视觉理解能力转化为实际操作能力。

在实际测试中,Dream-VLA展现了令人印象深刻的操作能力。在LIBERO机器人操作基准测试中,该模型在四个不同难度的任务套件中都取得了优异成绩:空间布局任务97.6%成功率、物体变换任务98.8%成功率、目标导向任务97.2%成功率,以及长序列任务95.0%成功率,总体平均成功率达到97.2%。这些数字意味着Dream-VLA已经能够像熟练工人一样,稳定可靠地完成各种复杂的操作任务。

在真实机器人测试中,Dream-VLA的表现更是令人惊喜。在WidowX机器人平台上进行的四项日常操作任务中,该模型取得了71.4%的总体成功率,大幅超越了之前的最佳记录54.2%。无论是"将勺子放在毛巾上"这样的精细操作,还是"将茄子放入篮子"这样的复杂任务,Dream-VLA都表现出了接近人类操作员的稳定性和准确性。

四、技术创新:并行思维带来的独特优势

Dream系列模型的成功不仅仅体现在测试分数上,更重要的是它展示了一种全新的AI思维方式。传统的自回归模型就像串联电路中的灯泡,必须一个接一个地依次点亮,任何一个环节出错都会影响后续所有操作。而扩散模型则像并联电路,可以同时处理多个信息流,即使某个部分出现问题也不会影响整体性能。

这种并行思维方式在动作规划中展现出了独特优势。研究团队发现,Dream-VLA能够同时预测多个连续动作,而不需要像传统模型那样逐个生成。这就像一个经验丰富的厨师在做饭时可以同时处理多个步骤:一边切菜一边烧水,一边调料一边观察火候。这种能力让机器人的操作变得更加流畅和高效。

更令人惊喜的是,Dream-VLA在预测低级动作时只需要一个扩散步骤就能达到良好效果,这带来了显著的速度提升。在实验中,当同时生成12个连续动作时,Dream-VLA比传统自回归模型快了27倍。这种速度优势让实时机器人控制成为可能,为未来的应用奠定了重要基础。

研究还揭示了扩散模型在动作序列规划中的另一个重要特性:抗错误累积能力。传统的自回归模型在生成长序列时容易出现错误累积,就像多米诺骨牌效应一样,前面的小错误会逐渐放大,最终导致整个序列失控。而扩散模型由于其全局优化的特性,能够有效避免这种问题,在处理长期规划任务时表现出更强的稳定性。

五、多目标训练:一个模型胜任所有任务

Dream-VLA的另一个重要创新在于其出色的多目标适应能力。传统的机器人系统通常需要针对不同任务训练不同的模型,就像需要雇佣不同专业的工人来完成不同工作。而Dream-VLA更像一个多才多艺的全能型员工,能够根据不同的训练目标灵活调整自己的行为模式。

研究团队在SimplerEnv-WidowX基准测试中验证了这种多目标适应能力。他们使用L1回归、离散扩散、连续扩散、离散扩散和流匹配等五种不同的训练目标对模型进行微调,发现Dream-VLA在所有目标下都显著超越了对比模型OpenVLA-OFT。这种一致的优越性表明,扩散架构本身就具有强大的任务适应能力,不依赖于特定的训练策略。

特别有趣的是,研究发现连续动作空间的训练目标通常比离散动作空间表现更好。这符合直觉,因为现实世界的机器人操作本质上是连续的,用连续方式建模更加自然。在Dream-VLA的最佳配置中,使用流匹配损失函数训练的模型在大多数任务中都取得了最优表现,总体成功率达到60.4%。

这种多目标适应能力的实用价值不容小觑。它意味着用户可以根据具体应用场景的需求,灵活选择最合适的训练策略,而不需要重新设计模型架构。这大大降低了技术门槛,让更多研究者和开发者能够基于Dream-VLA构建自己的机器人应用。

六、收敛速度:学习效率的显著提升

在机器人学习领域,训练效率一直是个关键问题。传统模型往往需要大量时间和计算资源才能达到理想性能,这限制了技术的推广应用。Dream-VLA在这方面展现出了明显优势,其学习收敛速度显著快于传统的自回归模型。

研究团队的对比实验显示,在相同的训练条件下,Dream-VLA能够更快地收敛到较低的损失值。这种差异在使用离散扩散训练时最为明显,因为这种训练方式与模型的预训练阶段使用相同的目标函数,形成了一致的学习范式。这就像一个学生在学习新技能时,如果新技能与已掌握的基础知识高度相关,学习起来就会事半功倍。

更重要的是,Dream-VLA的架构一致性带来了额外的训练优势。由于从语言模型到视觉语言模型,再到视觉语言行动模型的整个发展过程中都保持相同的扩散架构,模型不需要适应新的结构变化,可以将全部注意力集中在任务特定的技能学习上。这种设计理念确保了模型在每个发展阶段都能保持最佳学习效率。

实验数据进一步证实了这一点。在各种不同的微调目标下,Dream-VLA都表现出了比OpenVLA-OFT更快的收敛速度和更低的最终损失。这意味着即使在有限的训练时间和计算资源条件下,Dream-VLA也能达到更好的性能,这对于实际应用具有重要意义。

七、架构优势:天然支持动作分块的设计理念

Dream-VLA的设计理念体现了一种前瞻性的思维。传统的自回归VLA模型在实现动作分块时需要修改注意力机制,就像在已建成的房子里改装电路一样复杂且容易出问题。而Dream-VLA从设计之初就天然支持并行生成多个动作,就像房子在建造时就规划好了完善的电路系统。

这种架构优势带来了多重好处。首先是一致性优势:整个模型从语言模型阶段到最终的动作预测阶段都使用相同的架构,避免了结构变化可能带来的性能损失。其次是效率优势:模型可以在不改变架构的情况下支持不同长度的动作序列,提供了极大的灵活性。

研究团队的实验验证了这种设计的有效性。在LIBERO测试中,随着动作分块大小的增加,Dream-VLA的性能持续提升,而传统的Qwen2.5-VL模型在动作分块大小超过一定阈值后性能开始下降。这说明Dream-VLA能够更好地处理长序列规划任务,不容易受到错误累积的影响。

特别值得注意的是,Dream-VLA在处理动作分块时表现出的鲁棒性。无论是在简单的LIBERO-Goal任务还是复杂的LIBERO-Long任务中,随着动作分块大小从2增加到12,模型的成功率都保持稳定甚至有所提升。这种稳定性对于实际应用至关重要,因为不同的机器人任务可能需要不同长度的规划窗口。

八、实验验证:从仿真到现实的全面测试

为了全面验证Dream-VLA的性能,研究团队设计了一套覆盖从仿真环境到真实机器人的完整测试方案。这种全面的验证策略确保了模型不仅在理论上先进,在实际应用中也确实有效。

在LIBERO仿真环境中,Dream-VLA面对的是四种不同类型的挑战。空间布局任务测试模型对物体空间关系的理解能力,物体操作任务检验模型处理不同物体属性的能力,目标导向任务评估模型的任务规划能力,而长序列任务则考验模型在复杂多步骤操作中的表现。Dream-VLA在所有这些测试中都取得了接近98%的成功率,展现了全面而均衡的能力。

SimplerEnv测试平台提供了另一个重要的验证维度。该平台模拟了真实机器人的工作环境,包含了视觉变化和环境扰动等现实因素。Dream-VLA在这个更加接近真实条件的测试中依然保持了60.5%的总体成功率,超越了多个先进的对比模型。这种在复杂环境中的稳定表现证明了模型的实用价值。

真实机器人实验是最终也是最严格的测试。在WidowX机器人平台上进行的四项日常操作任务涵盖了精确抓取、空间推理、物体操作等多个方面。Dream-VLA不仅在总体成功率上达到71.4%,在单项任务中也表现出色:勺子放置任务79.2%成功率、胡萝卜操作41.7%成功率、积木堆叠20.8%成功率、茄子放置100%成功率。这些结果表明,该模型已经具备了在真实环境中可靠工作的能力。

九、性能对比:全面超越现有技术水平

Dream系列模型在多个维度上都展现出了对现有技术的全面超越。在视觉语言理解方面,Dream-VL不仅超越了所有现有的扩散型视觉语言模型,在某些任务上甚至接近了使用商业数据训练的顶级自回归模型的性能水平。

特别值得关注的是Dream-VL在规划导向任务中的突出表现。在ViPlan基准测试中,该模型在需要复杂视觉推理和符号规划的任务中显著超越了传统自回归模型。这种优势在家庭场景的物体操作任务中最为明显,证明了扩散架构在处理真实世界复杂场景时的独特价值。

在机器人操作方面,Dream-VLA的表现更是令人瞩目。与当前最先进的VLA模型相比,Dream-VLA在LIBERO测试中取得了97.2%的平均成功率,超越了OpenVLA-OFT的97.1%和GR00T-N1的93.9%。虽然差距看起来不大,但在机器人操作这样的高精度任务中,即使是1%的提升也代表了显著的技术进步。

更重要的是,Dream-VLA在真实机器人测试中展现出的大幅性能提升。71.4%的总体成功率相比之前最佳记录54.2%提升了17.2个百分点,这种提升幅度在机器人操作领域是相当显著的。这不仅证明了技术的先进性,也为实际应用奠定了坚实基础。

说到底,这项研究最大的意义不仅在于技术指标的提升,更在于为AI领域开辟了一条全新的发展路径。Dream-VL和Dream-VLA的成功证明,通过改变AI的基础思维方式,我们可以让机器在理解视觉世界和制定行动计划方面取得突破性进展。这种从顺序思维到并行思维的转变,就像从单线程处理器升级到多核处理器一样,带来的不仅是性能提升,更是能力的质的飞跃。

这项技术的潜在应用前景广阔。在家庭服务领域,具备Dream-VLA能力的机器人助手可以根据看到的家庭环境自主制定清洁、整理方案。在制造业中,这种技术可以让工业机器人更灵活地适应不同的生产任务,减少人工干预的需要。在医疗护理、物流运输、农业生产等众多领域,这种"看图规划"的能力都有着巨大的应用价值。

当然,这项技术目前还处于相对早期的阶段,距离大规模商业应用还需要进一步的发展和完善。研究团队也坦诚地指出了当前的一些局限性,比如在某些复杂场景中的性能还有提升空间,训练数据的规模和多样性还可以进一步扩大。但是,这项研究为我们展示了一个令人兴奋的未来图景:AI不再只是被动地执行指令,而是能够主动观察、思考和规划的智能伙伴。

研究团队已经将Dream-VL和Dream-VLA开源发布,这意味着全世界的研究者和开发者都可以基于这项技术进行进一步的创新和应用。这种开放的态度将会推动整个领域的快速发展,我们有理由相信,在不久的将来,我们将看到更多基于这种技术的实用AI产品走进我们的日常生活。

Q&A

Q1:Dream-VL和Dream-VLA有什么区别?

A:Dream-VL主要负责"看懂",能够理解图像并进行视觉推理,就像一个会看图说话的AI助手。Dream-VLA在此基础上增加了"会做"的能力,不仅能理解视觉场景,还能制定具体的操作计划并控制机器人执行动作,是一个完整的视觉语言行动模型。

Q2:扩散模型比传统AI模型好在哪里?

A:传统AI模型像按剧本念台词,只能按顺序逐个生成内容,无法回头修改。扩散模型则像画家创作,可以全局考虑、反复修改,直到达到最佳效果。这种并行思维方式让AI在处理需要长期规划的复杂任务时表现更出色,速度也更快。

Q3:这项技术什么时候能在日常生活中普及?

A:目前Dream系列模型已经开源发布,研究者和开发者可以基于此技术进行应用开发。虽然距离大规模商业应用还需要时间,但在家庭服务机器人、工业自动化、医疗护理等领域的应用前景广阔,预计未来几年内会看到相关产品逐步走向市场。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-