微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 视觉赋能大脑:让多模态大语言模型在真实空间中看见、思考与控制

视觉赋能大脑:让多模态大语言模型在真实空间中看见、思考与控制

2025-06-06 17:29
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-06 17:29 科技行者

在人工智能领域取得突破性进展的今天,来自上海人工智能实验室、清华大学、中国科学技术大学等机构的研究团队在2025年5月发布了一项重要研究:《视觉赋能大脑:让多模态大语言模型看见、思考并在空间中控制》(Visual Embodied Brain: Let Multimodal Large Language Models See, Think, and Control in Spaces)。这项研究提出了一个名为"视觉赋能大脑"(VeBrain)的全新框架,旨在解决当前多模态大语言模型在现实世界应用中的关键挑战。

想象一下,如果你的智能助手不仅能理解你说的话,还能看懂周围环境并与之互动,那会是怎样的体验?这正是研究团队试图实现的目标。目前的多模态大语言模型(MLLMs)已经能够理解图像和文本,但它们在空间推理和物理交互方面仍有明显短板。简单来说,它们可以看懂照片中有什么,但却难以理解三维空间的关系,更不用说像机器人那样在现实世界中移动和操作物体了。

为什么这项研究如此重要?想象你有一个家庭机器人助手,它需要同时具备三种能力:首先,它得理解你的指令和周围环境(就像理解"帮我拿那个红色的杯子");其次,它需要具备空间感知能力(知道杯子在哪里,怎么走过去不会撞到家具);最后,它还要有精确控制能力(知道如何伸手、如何抓取物体)。现有技术要么专注于理解能力,要么专注于控制能力,很难兼顾这三方面。

研究团队提出的VeBrain框架巧妙地解决了这个问题。他们的核心创新在于将机器人控制重新定义为2D视觉空间中的文本任务,这意味着他们让大语言模型做它最擅长的事情——生成文本,然后通过一个特殊的"机器人适配器"将这些文本指令转换为实际的运动指令。这就像是在大语言模型和机器人之间搭建了一座桥梁,让两者能够顺畅地沟通。

为了训练这个系统,研究团队创建了一个包含60万条高质量指令数据的数据集(VeBrain-600k),涵盖多模态理解、视觉空间推理和机器人控制三个关键能力。他们花费了数百小时收集、整理和标注数据,并采用了多模态思维链(CoT)技术,将不同能力混合到单一对话中,这使得模型能够更自然地处理复杂任务。

在13个多模态基准测试和5个空间智能基准测试上的广泛实验表明,VeBrain的性能优于现有的MLLM模型,如Qwen2.5-VL。更令人印象深刻的是,当部署到四足机器人和机械臂上时,VeBrain展现出了强大的适应性、灵活性和组合能力。例如,与Qwen2.5-VL相比,VeBrain不仅在MMVet基准测试上提高了5.6%的性能,在四足机器人任务上还实现了平均50%的显著提升。

这项研究为人工智能与机器人技术的融合开辟了新的可能性,让我们离拥有真正智能的、能够理解并与物理世界互动的机器人助手更近了一步。

一、视觉赋能大脑:统一感知、推理与控制的挑战

多模态大语言模型(MLLMs)近年来取得了显著进步,它们能够理解图像、回答问题,甚至进行简单的推理。但是,要将这些模型应用到物理实体(如四足机器人或机械臂)上,面临着一个根本性挑战:如何让一个模型同时具备多模态理解能力、视觉空间推理能力和物理交互能力?

想象一下你在教一个孩子骑自行车。首先,孩子需要看懂自行车的结构(感知);然后,理解如何保持平衡和转向(推理);最后,实际操控车把和踏板(控制)。这三种能力看似简单,但对人工智能来说却是截然不同的任务,很难在一个模型中同时实现。

现有的方法通常分为两类。一类是视觉-语言-动作(VLA)模型,它们通过大规模机器人数据集训练,将多模态观察映射为控制策略。这些模型虽然在控制任务上表现不错,但往往牺牲了多模态理解能力。就像一个只会骑自行车但不理解交通规则的人一样,缺乏全面的理解能力会限制其实际应用。

另一类方法是直接构建基于MLLM的代理来控制机器人,同时保留其多模态推理能力。然而,由于任务差距太大,它们在控制精度和泛化能力上仍远远无法满足实际机器人的需求。这就像让一个理论专家突然去参加自行车比赛,虽然他懂所有原理,但缺乏实际操作经验。

研究团队发现,统一这些能力的挑战主要来自于它们的内在差异。学习机器人控制需要将多模态输入精确映射到真实世界中的物理运动策略,这与现有MLLM在2D视觉空间中的跨模态对齐目标有根本不同。这种不同的目标使得MLLM难以有效平衡这些能力,导致知识遗忘和任务冲突。更糟糕的是,学术界仍然缺乏一个合适的数据配方来无缝整合和平衡MLLM中的这些能力。

为克服这些局限,研究团队提出了视觉赋能大脑(VeBrain),一个统一感知、推理和现实世界控制的框架。VeBrain的核心理念是将机器人控制重新定义为2D视觉空间中的普通文本任务,从而统一不同能力的学习目标。具体来说,机器人控制被分解为关键点检测和具身技能识别两个任务。前者作为视觉空间锚点编码机器人的运动信号,后者表示执行信号的动作命令。

基于这些控制信号,研究团队设计了一个新颖的机器人适配器,以动态且稳健的方式将这些信号转换为运动策略。这就像给一个语言天才配备了一个专业翻译,能够将他的指令准确翻译成机器人能理解的动作语言。通过这些设计,VeBrain能够在保留MLLM强大能力的同时,实现高效的机器人控制。

二、VeBrain架构:思考与行动的无缝桥接

VeBrain的设计理念可以比作给大语言模型安装了一个特殊的接口,让它能够与物理世界对话。这个框架主要由两部分组成:一个负责理解、思考和决策的多模态大语言模型(MLLM),以及一个将MLLM决策转换为可执行策略的机器人适配器。这两部分通过闭环连接,实现动态且稳健的控制。

首先,来看MLLM架构。VeBrain基于Qwen2.5-VL模型,包含视觉编码器、投影器和大语言模型。想象这就像人的视觉系统和思维系统:视觉编码器(类似眼睛)接收图像信息,投影器(类似视神经)将视觉信息转换为语言模型可理解的形式,大语言模型(类似大脑)则处理这些信息并做出决策。

具体来说,当系统接收到图像和文本提示后,首先由优化的视觉Transformer(ViT)提取视觉特征,然后通过大语言模型生成回应。这个过程就像人看到一个场景,大脑立即开始处理视觉信息,结合已有知识和当前目标,形成行动计划。

不过,仅有MLLM还不足以控制实际的机器人。这就像你可以想象如何骑自行车,但如果没有实际操控自行车的经验和技能,想法很难转化为精确的动作。这正是机器人适配器的作用所在。

机器人适配器克服了几个关键挑战:首先,2D关键点难以直接应用到真实世界的3D场景;其次,四足机器人的自我视角会随着移动而变化,导致关键点与视觉透视不一致;第三,由于MLLM无法感知机器人状态,当发生意外情况时难以及时控制。为解决这些问题,机器人适配器包含了四个模块:点追踪器、运动控制器、技能执行器和动态接管。

点追踪器就像一个不断更新地图的导航系统。当机器人移动时,它会实时更新关键点位置,确保指令始终与当前视角匹配。运动控制器则像是一个翻译官,将2D关键点转换为3D坐标,并估算机器人的运动速度。技能执行器相当于一个专业教练,负责调用预训练好的各种动作策略,如行走、跳跃等。最后,动态接管功能像是一个安全监督员,当机器人适配器失败时(例如目标点消失或子任务完成),它会将控制权交还给MLLM。

这整个系统形成了一个闭环:MLLM负责"看"和"想",决定去哪里以及做什么;机器人适配器则负责"行动",将决策转化为精确的运动。这种设计使得VeBrain能够在保持强大多模态理解能力的同时,实现对真实机器人的精确控制。

以一个简单任务为例:假设要求机器人"把香蕉放进盒子里"。首先,MLLM会分析场景,确定香蕉和盒子的位置,然后生成一系列关键点和动作命令,如"移动到香蕉位置"、"抓取"、"移动到盒子位置"、"释放"。机器人适配器随后将这些命令转换为实际的运动轨迹和抓取动作,同时不断监控执行情况,确保任务顺利完成。如果过程中出现意外,如香蕉掉落,系统会动态调整策略,重新规划路径或动作。

三、VeBrain-600k数据引擎:构建思考与行动的基础

要训练一个能够看、想、行动的智能系统,需要大量高质量的数据。就像教育一个孩子需要各种各样的学习材料和实际经验,VeBrain的训练也需要涵盖多种能力的多样化数据。为此,研究团队构建了VeBrain-600k,一个包含60万条指令数据的高质量数据集。

这个数据集包含三大类数据:20万条多模态理解数据、31.2万条视觉空间推理数据和8.8万条机器人控制数据。想象这就像给孩子准备了三类教材:一类教他认识世界(理解),一类教他空间思维(推理),还有一类教他实际操作技能(控制)。

在数据收集和标注方面,研究团队付出了巨大努力。对于多模态理解数据,他们从开源数据集(如ShareGPT4V和MMInstruct)中收集了大量对话,还使用GPT4o生成数据并通过自定义流程进行标注。这部分数据教会系统理解图像、视频和文本描述,就像教孩子认识世界上的各种事物。

对于视觉空间推理数据,他们收集了来自GPT4Scene和ScanNet的数据。特别是,他们设计了两条标注流水线:一条将图像帧和点云快照结合起来,通过GPT-4o生成描述性对话;另一条则通过ScanNet和人类专家的标注来标记计数、物体大小和物体距离等信息。这部分数据培养系统的空间感知能力,就像教孩子理解"前后左右"、"远近大小"等空间概念。

最具挑战性的是机器人控制数据的收集。4名人类专家花费80多小时收集了四足机器人和机械臂的视频片段和运动状态,然后5名人类专家手动标注了这些片段中的关键点和动作。这就像让专业教练示范和讲解各种动作技能,然后记录下来作为教学材料。

但仅有原始数据还不够,还需要设计思维链(Chain-of-Thought,CoT)来将不同能力融入一个对话中。思维链就像是详细的解题思路,不仅给出答案,还展示了到达答案的整个思考过程。对于多模态理解和视觉空间推理,CoT内容旨在将推理能力融入这些任务中。研究团队根据任务特性设计了不同的CoT模板,并使用Gemini-2.0和GPT-4o生成CoT内容。

对于机器人控制,CoT过程更加复杂,它进一步整合了感知、推理和控制的内容。首先描述视觉观察,然后分解任务,最后做出控制决策。这就像教导孩子:"看清楚周围环境,想一想该怎么做,然后一步一步行动"。

为确保数据质量,研究团队采用了多重验证机制。在机器人数据收集过程中,三名专家仔细审核每个视频,确保物体在机器人视野范围内。对于CoT生成,他们采用了交叉模型验证流水线,使用Gemini-2.0作为参考模型来评估GPT-4o生成的CoT数据的逻辑和物理合理性。最后,5名人类专家随机抽查了10%的数据进行手动检查,只有5.3%的数据被进一步排除,证明了数据生成流水线的可靠性。

通过这种精心设计的数据引擎,VeBrain-600k不仅鼓励MLLM共同学习具身大脑的基本能力,还最大化了其处理复杂任务的能力。这就像给孩子提供全面且系统的教育,不仅教会他基础知识,还培养他解决实际问题的综合能力。

四、实验结果:从理解到行动的全面验证

为了全面评估VeBrain的性能,研究团队在三个关键能力上进行了广泛的实验:多模态理解、视觉空间推理和机器人控制。这就像对一个全能型运动员进行全面体检,测试他在各个运动项目上的表现。

首先,让我们看看VeBrain的消融实验,这有助于理解各个组件的贡献。消融实验就像拆解一道复杂菜肴,尝试去掉某些配料,看看最终味道会有什么变化,从而了解每种配料的重要性。实验表明,尽管Qwen2.5-VL在多模态理解方面表现出色,但在视觉空间推理和机器人控制方面却相对薄弱,例如在"复杂查找"任务上的成功率为0%。当研究团队为模型配备机器人适配器后,其在两个机器人控制任务上的成功率明显提高。更令人印象深刻的是,在使用控制数据进行微调后,VeBrain的多模态能力得到了很好的保留,充分证明了VeBrain设计的有效性。此外,每种类型的数据都对相应能力做出了显著贡献,例如视觉空间推理数据在VSI-Bench上提升了7.5%的性能。

接下来,研究团队将VeBrain与两种常见框架进行了比较:基于MLLM的文本控制和基于VLA的动作策略控制。结果显示,MLLM框架在两个任务上直接控制机器人的能力有限,主要是由于其控制能力不足;而VLA虽然在机器人控制任务上表现不错,但严重牺牲了多模态能力,例如在MMVet上比MLLM低16.3%。相比之下,VeBrain在所有任务上实现了最佳平衡性能,相比其他框架平均提高了31.5%,这充分证明了现有框架在统一多模态理解、视觉空间推理和机器人控制方面的不足,也验证了VeBrain各设计的有效性。

在多模态理解基准测试上,VeBrain与各种现有MLLM和VLA模型进行了比较。结果表明,现有VLA模型在这些多模态基准上表现较差,甚至有些完全丧失了多模态能力。即使是RoboBrain这样集成了大量多模态理解数据的VLA模型,在OCR和图表基准上也明显落后于先进的MLLM,例如在ChartQA上低6.8%,在OCRBench上低187分。相比之下,VeBrain在13个MLLM基准上展示了全面优势,例如在DocVQA上比RoboBrain高6.4%。更重要的是,VeBrain在大多数基准上的表现优于先进的开源和闭源MLLM,如在MMVet上提高了5.6%,并获得了77.1的最佳标准化平均性能,表明其卓越的多模态能力。考虑到VeBrain比闭源MLLM小得多,这些结果进一步证明了其多模态能力的强大。

在视觉空间推理方面,研究团队首先展示了四个3D空间基准的结果。在这些任务中,模型需要强大的3D空间感知和推理能力来回答不同类型的问题。因此,大多数之前的方法采用基于3D的MLLM结构,并在四个基准上取得了不错的结果。相比之下,直接将2D MLLM迁移到这些任务上会导致较差的性能,例如Qwen2.5-VL-7B在Acc@0.25上低50.1个百分点,表明它们在3D空间理解和推理方面的不足。相比这些方法,GPT4Scene-HDM通过基于视频的2D MLLM和对象标记器取得了更好的结果。然而,作为一个专家模型,GPT4Scene-HDM难以应用于常见的2D多模态任务。相比之下,VeBrain作为一个通用MLLM,其性能甚至超过了GPT4Scene-HDM,例如在ScanQA val上的CIDEr得分高出5.2,充分验证了其泛化能力。在VSI基准上的进一步诊断显示,VeBrain在平均分数上优于所有现有MLLM,例如比Qwen2.5-VL-7B高4.0%。与更大的MLLM如GPT-4o相比,VeBrain的表现也更好。考虑到VSI基准的巨大挑战,这些结果进一步证明了VeBrain的空间推理能力。

最后,在机器人控制方面,研究团队比较了VLA、MLLM和VeBrain在七个四足机器人任务上的表现。结果显示,现有的VLA和MLLM在直接完成大多数任务(如"交互"和"运输")时面临困难。其中,配备了机器人适配器的Qwen2.5-VL取得了最好的结果。然而,当适应到更难的任务(如"复杂查找")时,它们的成功率显著下降,例如仅有20%的成功率。这些任务通常需要空间推理和具身控制等组合能力,而普通MLLM不擅长这些。相比之下,VeBrain统一了这些能力,在各种复杂四足机器人任务上取得了显著更好的结果。例如,在长期任务"复杂运输"上,VeBrain比所有模型表现好50%。VeBrain在机械臂上也展示了类似的优势。如表7所示,常见VLA在大多数操作任务中表现出有限的成功率,例如π0在"将辣椒放入盒子"任务上的成功率为30%。在长期任务中,π0的成功率进一步下降到0%。与这些方法相比,VeBrain在所有任务中都取得了最高的成功率。在最具挑战性的任务中,VeBrain的表现比π0高出80%,进一步验证了其在机器人控制中的有效性。

五、可视化案例:从理解到行动的完整过程

为了直观展示VeBrain在实际任务中的表现,研究团队提供了机械臂和四足机器人的可视化结果。这些案例生动地展示了VeBrain如何通过组合能力处理复杂的机器人任务。

想象有这样一个场景:要求机器人找到一个隐藏的辣椒。对于普通人来说,这是一个简单的任务,但对机器人来说却很复杂,涉及到感知、推理和精确控制。VeBrain首先分析场景,发现桌面上没有辣椒,但注意到有一个半开的抽屉。通过推理,VeBrain猜测辣椒可能藏在抽屉里,然后开始执行一系列步骤:移动到抽屉前,完全打开抽屉,找到里面的辣椒,然后抓取它。这个过程不仅需要控制能力,还需要出色的感知和推理能力,能够根据环境线索(半开的抽屉)推断出可能的物体位置。

另一个例子是要求机器人将物品运送到指定位置。VeBrain首先确定目标盒子的位置,然后规划路径避开障碍物,最后将物品放入盒子中。更重要的是,VeBrain还能确定任务是否已经完成,例如通过观察盒子中是否已经包含了所需数量的物品。这展示了VeBrain不仅能执行简单的命令,还能理解任务的整体目标,并在执行过程中进行自我监督。

这些可视化案例清晰地展示了VeBrain如何将多模态理解、视觉空间推理和机器人控制无缝整合,使机器人能够应对现实世界中的复杂情况。传统方法通常会在这些复杂任务上失败,因为它们要么缺乏理解能力(无法推断辣椒在抽屉中),要么缺乏执行精度(无法准确抓取物体)。相比之下,VeBrain凭借其统一框架,展现出了强大的组合能力和适应性,能够自然地融合思考和行动。

六、总结与展望:统一认知与控制的未来

VeBrain代表了多模态大语言模型向物理世界迈出的重要一步。通过创新性地将机器人控制重新定义为2D视觉空间中的文本任务,研究团队成功地统一了多模态理解、视觉空间推理和机器人控制这三种基本能力,克服了现有方法面临的根本性挑战。

VeBrain的成功不仅在于其创新的框架设计,还在于VeBrain-600k数据集的精心构建。这个包含60万条高质量指令数据的数据集涵盖了具身大脑的各种能力,通过多模态思维链将不同能力混合到单一对话中,最大化了模型处理复杂任务的能力。

在各种基准测试中,VeBrain展示了令人印象深刻的性能。在多模态理解方面,它甚至超过了一些闭源大型模型;在视觉空间推理任务上,它表现出了强大的3D理解能力;在机器人控制方面,它比现有方法取得了显著提升,特别是在复杂任务上。这一切都证明了VeBrain框架的有效性和可行性。

当然,VeBrain也存在一些局限性。尽管它在简单和中等复杂度的任务上表现出色,但在高度复杂的任务中仍面临挑战。此外,当前的实现主要集中在四足机器人和机械臂上,未来可以扩展到更多类型的机器人平台。另外,VeBrain目前的训练数据主要来自实验室环境,在完全开放的真实世界环境中可能需要更多适应。

展望未来,VeBrain开启了几个有前景的研究方向。首先,可以探索更多样化的任务和环境,进一步测试和提升VeBrain的泛化能力。其次,可以增强机器人适配器的功能,使其能够处理更复杂的场景和任务。最后,可以探索如何让VeBrain从经验中学习和适应,使其能够不断提升自身能力,就像人类通过实践不断提高技能一样。

总的来说,VeBrain代表了人工智能和机器人领域的一个重要里程碑,它展示了如何将认知智能和控制能力有机结合,为创建真正智能的具身代理铺平了道路。随着技术的不断发展,我们可以期待看到更多像VeBrain这样的系统,它们不仅能看、能想,还能在现实世界中自然地行动和交互。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-