微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 ViPlan:视觉语言模型如何从图像中理解世界并制定行动计划?

ViPlan:视觉语言模型如何从图像中理解世界并制定行动计划?

2025-05-23 07:45
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-23 07:45 科技行者

阿尔托大学和布鲁诺·克斯勒基金会联合开发的视觉规划基准测试

在人工智能快速发展的今天,让AI系统能够理解视觉信息并据此制定行动计划,已成为实现真正通用人工智能的关键挑战之一。2025年5月,来自阿尔托大学和布鲁诺·克斯勒基金会的研究团队,包括Matteo Merler、Nicola Dainese、Minttu Alakuijala、Giovanni Bonetta、Pietro Ferrazzi、Yu Tian、Bernardo Magnini和Pekka Marttinen等研究者,在arXiv上发表了题为《ViPlan: A Benchmark for Visual Planning with Symbolic Predicates and Vision-Language Models》的研究论文。该论文介绍了一个名为ViPlan的基准测试,首次系统性地评估视觉语言模型在视觉规划方面的能力。有兴趣深入了解的读者可以通过arXiv:2505.13180v1访问完整论文。

一、为什么我们需要视觉规划能力?

想象一下,你走进一个陌生的厨房,想要泡一杯咖啡。虽然你从未见过这个特定的厨房,但你能迅速扫视环境,找出咖啡机、咖啡豆和水杯的位置,并顺利完成一系列动作:接水、磨豆、放入咖啡粉、按下开关等。这种在未知环境中理解视觉信息并据此制定行动计划的能力,对我们人类来说似乎轻而易举,但对AI系统而言却是一项巨大挑战。

近年来,大型语言模型(LLMs)在文本领域展现出了惊人的能力,包括规划能力,但研究表明它们在可验证性和可靠性方面仍有局限。与此同时,视觉语言模型(VLMs)通过结合视觉和语言理解能力,为AI系统提供了感知和理解物理世界的新途径。但一个关键问题是:这些模型是否真的能像人类一样,看到一个场景后制定出合理的行动计划?

ViPlan基准测试正是为了回答这个问题而设计的。这项研究不仅评估了VLM直接生成行动计划的能力,还测试了它们与符号规划器(如PDDL规划器)结合时的表现。通过比较这两种方法在不同场景下的优缺点,研究团队揭示了当前VLM技术的能力边界,为未来研究指明了方向。

二、视觉规划的两种主要方法

在理解ViPlan基准测试之前,我们需要先了解视觉规划的两种主要方法。想象你有一个能看懂图像的AI助手,你希望它帮你完成一些任务,比如整理桌上的物品。这个AI助手可以采用两种不同的工作方式:

第一种方式是"VLM作为规划器"(VLM-as-planner)。在这种方法中,AI助手直接看到一张当前环境的照片,然后立刻告诉你:"我认为应该先拿起红色的杯子,然后把它放在蓝色盒子旁边..."等等。它一步一步地告诉你该做什么,就像一个看到情况后直接指导你行动的朋友。每执行完一个动作后,它会看到新的环境照片,然后继续给出下一步指示。如果某个动作没达到预期效果,它会根据新的情况调整计划。

第二种方式是"VLM作为接地器"(VLM-as-grounder)。这种方法更复杂一些。在幕后,有一个专门负责规划的程序(称为符号规划器),它擅长逻辑推理和制定计划,但它不能直接"看到"真实世界。AI助手的工作是充当这个规划器的"眼睛",通过回答关于环境的是非问题帮助规划器理解当前情况。比如规划器可能会问:"红色杯子是否在桌子上?",AI助手看到图像后回答"是"或"否"。规划器收集了足够的信息后,会制定一个行动计划,然后一步一步执行。如果某个动作后环境变化与预期不符,AI助手会告知规划器,规划器会重新评估情况并调整计划。

这两种方法各有优缺点。第一种方法更直接,但可能缺乏逻辑严谨性;第二种方法结合了VLM的视觉能力和符号规划器的逻辑推理能力,但复杂度更高,且需要更多的问答交互。ViPlan基准测试的核心目的,就是系统性地比较这两种方法在不同环境下的表现。

三、ViPlan基准测试:虚拟世界中的挑战任务

ViPlan基准测试包含两个不同的虚拟环境,每个环境都设计了一系列从简单到复杂的任务,用于评估不同视觉语言模型的规划能力。

### ViPlan-Blocksworld:抽象理解的考验

第一个环境是"ViPlan-Blocksworld"(简称ViPlan-BW),这是经典规划问题"积木世界"的视觉版本。在这个环境中,有不同颜色的积木分布在几个列中,AI系统的任务是将这些积木按照特定方式重新排列。例如,将红色积木放在蓝色积木上面,或者确保所有绿色积木都在同一列中。

虽然这个任务听起来很简单,但实际上它要求模型能够准确识别积木的颜色、位置和相互关系,并理解物理世界的一些基本规则,比如一个积木只有在它上面没有其他积木时才能被移动。ViPlan-BW根据任务复杂度分为简单、中等和困难三个级别,分别涉及不同数量的积木和操作步骤。

### ViPlan-Household:贴近现实的家庭机器人

第二个环境是"ViPlan-Household"(简称ViPlan-HH),这是一个模拟家庭环境的机器人仿真系统,基于iGibson 2.0开发。在这个环境中,一个机器人需要在家庭场景中完成各种任务,比如整理抽屉、锁门窗、打包食物、归类图书等。

这个环境比积木世界复杂得多,更贴近真实世界的挑战。机器人需要导航到特定位置,识别和操作各种家居物品,并处理部分可观测性(即无法同时看到所有物品)等问题。同样,ViPlan-HH也按难度分为三个级别,从简单任务(如整理5个物品)到复杂任务(如在车库中组织11个箱子)。

这两个环境共同构成了一个全面的测试平台,不仅评估模型在抽象任务上的表现,还测试它们在接近真实世界复杂场景中的能力。

四、测试方法:如何评估VLM的规划能力

ViPlan基准测试的创新之处在于其评估方法。传统的VLM评估通常是静态的,即给模型一组固定的问题并测试其回答准确率。但在规划任务中,每一步的决策都会影响后续环境状态,因此需要一种动态评估方法。

研究团队采用了一种称为"任务驱动动态评估"的方法。在这种评估中,模型不是回答一组预设问题,而是在动态变化的环境中持续做出决策。每一步决策的好坏都会影响后续任务进展,一个看似微小的错误可能会导致整个计划失败。

### 评估指标:成功率与预测准确性

研究团队使用两个主要指标评估模型表现:

成功率(Success Rate):这是最直接的指标,表示模型成功完成任务的比例。无论是"VLM作为规划器"还是"VLM作为接地器"方法,最终目标都是完成指定任务,因此这个指标能直接反映模型的实际效用。

预测准确性(Prediction Accuracy):对于"VLM作为接地器"方法,研究团队还评估了模型在回答单个谓词问题时的准确率。例如,当被问"红色积木是否在蓝色积木上面?"时,模型回答正确的比例。这个指标更接近传统VQA(视觉问答)任务的评估方式。

有趣的是,研究发现高预测准确性并不一定意味着高成功率。即使一个模型在回答单个问题时准确率达97%,在完成整个任务时仍可能失败,因为错误会累积。例如,如果每个动作平均需要验证7个谓词,即使单个谓词预测准确率为97%,一个动作完全正确的概率也只有约80%。这种"误差累积效应"在之前的VLM评估中很少被考虑,是ViPlan基准测试的一个重要贡献。

五、参与评测的视觉语言模型

研究团队评估了多种不同规模的开源和闭源视觉语言模型,包括:

- 开源小型模型(7-8B参数):LLaVA-Onevision 7B、Qwen2.5-VL 7B、AyaVision 8B、InternVL3 8B、Molmo 7B和Phi-4 Multimodal(5.6B) - 开源中型模型(12-32B参数):Gemma-3(12B和27B)、AyaVision 32B、Mistral-Small-3.1 24B和DeepSeek-VL2 - 开源大型模型(72-78B参数):LLaVA-Onevision 72B、Qwen2.5-VL 72B和InternVL3 78B - 闭源商业模型:GPT-4.1和GPT-4.1 Nano

这种广泛的模型选择确保了评估结果具有代表性,能够反映当前视觉语言模型技术的真实水平。研究团队还测试了每个模型在有无链式思考(Chain-of-Thought,CoT)提示的情况下的表现,以评估这种常用的推理技术是否有助于提高视觉规划能力。

六、惊人的研究发现:哪种方法更胜一筹?

研究的结果令人惊讶,因为没有一种方法在所有场景下都表现最佳。具体来说:

在ViPlan-BW(积木世界)环境中,"VLM作为接地器"方法明显优于"VLM作为规划器"。几乎所有模型(除了Gemma-3系列外)在使用接地器方法时都取得了更好的成绩。特别是InternVL3 78B和GPT-4.1这两个大型模型,在简单任务上的成功率接近100%,在中等和困难任务上也保持了很高的表现。

相比之下,在"VLM作为规划器"方法下,即使是表现最好的GPT-4.1,在最简单的任务上成功率也仅达到24%,在更复杂的任务上表现更差。

但在ViPlan-HH(家庭机器人)环境中,情况完全相反。"VLM作为规划器"方法普遍优于"VLM作为接地器"。中型和大型模型在规划方法下表现良好,而几乎所有模型在接地器方法下都表现不佳。

研究团队认为,这种差异可能是因为两个环境的本质不同。在抽象的积木世界中,视觉输入对规划至关重要,而语言理解提供的帮助有限,因此结合符号规划器的接地器方法更有优势。而在家庭环境中,模型可以利用它们对现实世界的已有知识(即使视觉观察不够清晰),直接生成合理的行动计划,因此规划器方法表现更好。

七、链式思考(Chain-of-Thought)的影响

令人意外的是,研究发现链式思考(CoT)提示在大多数模型和方法上并没有带来显著改善。在ViPlan-BW环境下使用接地器方法时,CoT对大多数模型几乎没有影响,而对小型模型(如Molmo和Qwen2.5-VL 7B)甚至有显著负面影响,其成功率最多下降了68%。

在使用规划器方法时,CoT的影响更为负面,只有少数例外(特别是GPT-4.1在ViPlan-BW中表现显著改善,但在ViPlan-HH中却变差)。

这一发现支持了最近的一些研究结果,表明当前的视觉语言模型在生成连贯的中间推理步骤方面仍然存在困难,这限制了推理技术的有效性。换句话说,虽然链式思考在纯文本任务中已被证明是有效的,但在涉及视觉理解的任务中,其效果还不够理想。

八、误差累积:为什么单个预测准确性不能保证任务成功

ViPlan研究的一个重要发现是误差累积效应。研究团队分析了在"VLM作为接地器"方法中,模型需要正确回答的预测数量与任务成功率之间的关系。

研究发现,虽然大多数模型在单个预测上的准确率很高(在ViPlan-BW中超过90%),但随着需要正确预测的数量增加,成功率迅速下降。这种现象解释了为什么即使一个模型在回答单个谓词问题时表现出色,在完成整个任务时仍可能失败。

这一发现突显了ViPlan基准测试的独特价值:它不仅测试模型在孤立问题上的表现,还评估它们在连续决策过程中的整体能力。这种评估方式更接近真实世界的应用场景,提供了对模型实际效用的更准确估计。

九、研究局限性与未来方向

尽管ViPlan基准测试提供了宝贵的见解,研究团队也坦率地承认了一些局限性。首先,在ViPlan-HH环境中,模型被给予了一些特权信息(如物品位置),这在真实世界应用中可能不可用。其次,研究假设低级控制器(如抓取物品的机械臂)能够完美执行动作,而现实中这些控制器可能会失败。团队也进行了一些实验,引入了10%的行动失败概率,发现结果与主要发现一致。

未来研究方向包括:如何在不依赖特权信息的情况下处理部分可观测性问题;如何将符号规划器与VLM更紧密地集成,特别是在开放世界环境中;以及如何提升VLM的视觉推理能力,尤其是对于抽象任务。

十、结论与启示

ViPlan基准测试提供了对当前视觉语言模型在规划任务中能力的全面评估。研究表明,没有一种通用方法适用于所有场景。在抽象环境中,结合符号规划器的接地器方法表现更佳;而在接近现实世界的环境中,直接使用VLM生成计划效果更好。

这一研究对AI系统的实际应用有重要启示。在设计涉及视觉理解和规划的AI系统时,开发者应根据具体应用场景选择合适的方法。对于高度结构化、抽象的任务,结合符号规划器可能更可靠;而对于贴近日常生活的任务,直接利用VLM的常识知识可能更有效。

最后,研究发现链式思考等推理技术在视觉任务中的有限效果,表明当前视觉语言模型在视觉推理方面仍有提升空间。随着技术的进步,未来的视觉语言模型可能会更擅长复杂的视觉推理和规划,为构建更通用、更可靠的AI系统铺平道路。

ViPlan作为首个开源的视觉规划基准测试,无疑将推动这一领域的研究进展,帮助开发者评估不同模型和方法的优缺点,最终构建更加智能和可靠的AI系统。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。

  • 微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。

  • 用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。

  • 播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-