微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 图像思维:用纯视觉规划替代语言推理的全新范式

图像思维:用纯视觉规划替代语言推理的全新范式

2025-05-21 13:36
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-21 13:36 科技行者

近日,来自剑桥大学语言技术实验室、伦敦大学学院和谷歌的研究团队在预印本服务平台arXiv上发表了一篇题为《Visual Planning: Let's Think Only with Images》的研究论文(arXiv:2505.11409v1,2025年5月16日)。这项研究挑战了我们对人工智能推理方式的传统认知,提出了一个全新的范式——视觉规划(Visual Planning)。

想象一下,当你在迷宫中寻找出路时,你会怎么做?大多数人不会说"我需要先向北走三步,然后向东转,再向南走两步...",而是在脑海中直接"看到"可能的路径,想象自己在迷宫中移动的样子。这种直觉性的视觉思考方式,恰恰是现有人工智能系统所缺乏的。

目前的大型语言模型(LLM)和多模态大型语言模型(MLLM)虽然能够接收图像输入,但它们的推理过程仍然依赖于纯文本。当面对需要空间推理的任务时,这些模型必须先将视觉信息转换为文字描述,然后在语言空间中进行推理,这种转换不仅效率低下,还会丢失大量视觉细节。

研究团队提出的视觉规划范式完全颠覆了这一方法。他们的系统不再依赖语言作为中间媒介,而是直接在视觉领域中进行思考和规划。简单来说,这种方法就像是让AI学会在脑海中绘制路线图,而不是用文字描述路径。为了实现这一目标,研究团队开发了一种名为"基于强化学习的视觉规划"(VPRL,Visual Planning via Reinforcement Learning)的框架,使用名为GRPO的技术对大型视觉模型进行训练,使其能够生成表示推理步骤的图像序列。

这项研究使用了三个经典的视觉导航任务进行验证:FROZENLAKE(冰湖),MAZE(迷宫)和MINIBEHAVIOR(迷你行为)。结果令人惊喜:与基于文本的推理方法相比,视觉规划范式在准确匹配率上平均提高了40%以上,展示了非语言推理方式的巨大潜力。

让我们一起深入了解这项颠覆性研究的细节,看看纯视觉思维如何为人工智能开辟全新的可能性。

一、背景:为什么我们需要视觉规划?

当我们人类面对空间导航问题时,比如寻找从A点到B点的路径,我们很少会想"我需要向北走20米,然后向西转,再走15米..."。相反,我们通常会在脑海中直接"看到"一条路线,想象自己沿着这条路线移动的画面。这种直观的视觉思维方式是人类解决空间问题的自然方式。

然而,现有的人工智能系统,包括最先进的多模态大语言模型(MLLM),虽然能够接收图像输入,但它们的推理过程仍然完全依赖于文本。即使是处理高度视觉化的任务,这些模型也必须先将视觉信息翻译成文字描述,然后在文本空间中进行推理。这种模态转换不仅增加了计算负担,还会导致大量视觉细节的丢失。想象一下,如果你要通过电话向朋友描述一幅复杂的地图,无论你的描述多么详尽,对方都很难完全准确地重构出地图的全貌。

研究人员指出,这种语言中介的依赖性是当前多模态AI系统的一个重要局限。认知科学的双重编码理论(Dual Coding Theory)支持这一观点,该理论认为人类认知同时通过言语和非言语渠道运作,每个渠道都具有独立的表征和推理过程。简而言之,有些问题适合用语言思考,而有些问题则更适合用图像思考。

以前的研究确实尝试过将图像整合到推理过程中,例如Visual Sketchpad和MVoT等方法会在文本推理的中间步骤中生成可视化辅助。然而,这些方法仍然以文本为主导,视觉元素只是辅助信息,真正的决策仍然发生在语言空间中。

剑桥大学的研究团队提出了一个大胆的问题:AI是否可以完全抛开语言,只使用图像进行规划和推理?这个问题引发了视觉规划(Visual Planning)范式的诞生。

二、视觉规划:纯图像思维的新范式

视觉规划范式的核心理念异常简单:用图像序列代替文本序列来表达推理过程。在传统的推理方法中,模型接收一个初始状态(可能包含图像和文本),然后生成一系列文本推理步骤,最终得出文本形式的答案。而在视觉规划中,模型接收一个初始图像,然后生成一系列表示中间状态的图像,形成一条完整的视觉轨迹。

这种方法的优势在于它避免了将视觉信息转换成文本的需要,从而保留了原始的空间关系和视觉细节。就像我们在脑海中想象穿过迷宫的路径一样,视觉规划系统直接在视觉空间中"思考",生成每一步可能的状态。

为了实现这一目标,研究团队使用了纯视觉模型——大型视觉模型(LVM),该模型只训练了图像和视频帧,没有接触过任何文本数据。这种设计选择是为了消除语言监督可能引入的干扰,确保模型完全在视觉模态内运作。

从技术角度看,视觉规划被定义为一个生成中间图像序列T = (v?, ..., v?)的过程,其中每个v?代表一个视觉状态,它们共同构成一条视觉规划轨迹。给定初始图像v?,模型会自回归地生成这些中间状态,每一步都基于初始状态和之前生成的状态:

v? ~ πθ(v?|v?, v?, ..., v???)

其中πθ是由参数θ定义的生成视觉模型。简单来说,模型会不断预测"下一步会是什么样子",直到完成整个任务。

三、VPRL:强化学习驱动的视觉规划

为了训练这种全新的视觉规划系统,研究团队开发了一种两阶段的强化学习框架,称为"基于强化学习的视觉规划"(VPRL)。

强化学习在提高自回归模型的泛化能力方面已经显示出显著优势,因为它能够优化序列级别的奖励,而不仅仅是逐个标记的监督信号。想象一下,教一个孩子玩棋盘游戏时,你通常不会对每一步棋都给出评价,而是根据最终结果(赢、输或平)来评判整个策略。同样,强化学习能够从整体任务成功与否中学习,而不需要为每个中间步骤提供明确的标签。

具体来说,VPRL框架包含两个关键阶段:

第一阶段:策略初始化。在这个阶段,模型πθ通过在环境中的随机行走获得的轨迹进行初始化训练。目的是生成有效的视觉状态序列,并保持探索能力。对于每条轨迹(v?, ..., v?),研究团队提取n-1个图像对(v≤?, v???),其中v≤?表示前缀序列(v?, ..., v?)。然后,给定一个输入前缀,模型会接触到一组可能的下一个状态{v???^(j)}????,这些状态来自共享相同前缀的K条有效轨迹。为了防止过拟合到特定转换并鼓励随机性,在每个训练步骤中,研究团队随机从这组候选中抽样一个v???^(l)作为监督目标。

第二阶段:视觉规划的强化学习。在第一阶段建立的基础上,模型已经具备了有效的探索能力,这对于强化学习至关重要,因为它确保了对所有可能转换的覆盖,并防止陷入次优行为。第二阶段利用这种能力,通过生成下一个视觉状态来模拟潜在动作的结果,并指导模型有效地进行规划。

具体来说,给定一个输入前缀v≤?,行为模型πθ???会采样一组G个候选响应{v???^(1), ..., v???^(G)}。每个响应代表一个与计划动作a?^(k)相对应的假设视觉状态。为了解释这些转换,研究团队使用基于规则的解析函数,将视觉状态对(v?, v???^(k))映射到离散动作。然后,使用复合奖励函数r(v?, v???^(k))对候选响应进行评分,该函数量化了生成的视觉状态是否代表了朝向目标状态的有意义进展。

不同于依赖学习的评论家来估计价值函数(这可能引入额外的不确定性和复杂性),GRPO通过组内比较提供了更具计算效率和可解释性的训练信号。在这种情况下,每个候选的相对优势A^(k)由以下公式计算:

A^(k) = (r^(k) - mean{r^(1), r^(2), ..., r^(G)}) / std{r^(1), r^(2), ..., r^(G)}

为了引导模型产生具有较高优势的响应,研究团队通过最大化以下目标来更新策略πθ:

J(θ) = E[1/G ∑???? min(ρ^(k)A^(k), clip(ρ^(k), 1-ε, 1+ε)A^(k)) - β·DKL(πθ||πref)]

其中ρ^(k) = πθ(v???^(k)|v≤?) / πθ???(v???^(k)|v≤?)是重要性采样比率。

奖励设计是VPRL框架的关键部分。与离散动作或文本标记不同,视觉输出是稀疏的、高维的,不容易分解为可解释的单元。在视觉规划框架中,挑战更加具体:生成的视觉状态是否能够正确反映预期的规划动作。

因此,奖励设计专注于朝目标的进展,同时验证带有约束的动作。具体来说,研究团队定义了一个状态-动作解析函数P:V×V→A∪E,其中A表示有效动作集,E表示无效转换集(如违反环境物理约束)。

该函数帮助从像素数据中解释模型行为到预期动作,可以通过独立的分割组件或基于规则的脚本实现。一旦有了预期动作,为了系统地评估动作效果,研究团队引入了进展图D(v)∈N,该图估计从每个视觉状态到达目标所需的剩余步骤或努力。

通过将代理的当前状态和结果状态与进展图进行比较,A∪E被划分为三个不相交的子集:

- A??? = {a∈A : D(v???^(k)) < D(v?)},即最优动作 - A???? = {a∈A : D(v???^(k)) ≥ D(v?)},即非最优动作 - E??? = E,即无效动作

然后,研究团队提出了进展奖励函数r(v?, v???^(k)):

α???·I[P(v?, v???^(k))∈A???] + α????·I[P(v?, v???^(k))∈A????] + α???·I[P(v?, v???^(k))∈E???]

其中α???, α????, α???是奖励系数。在实验中,研究团队设置α???=1,α????=0,α???=-5,从而奖励进展动作,对非进展动作赋予零值,并严厉惩罚无效转换。

四、实验验证:视觉规划的强大效果

为了验证视觉规划范式的可行性,研究团队在三个具有代表性的导航任务上进行了实验:FROZENLAKE(冰湖)、MAZE(迷宫)和MINIBEHAVIOR(迷你行为)。

FROZENLAKE任务模拟了一个基于网格的冰湖,代理需要从指定位置开始,在不掉入"孔洞"的情况下安全地找到目的地。MAZE任务要求代理从起点(绿点)穿过迷宫到达目的地(红旗)。MINIBEHAVIOR则更为复杂,代理首先需要从起点到达打印机并拾取它,然后去到桌子并放下打印机,这个任务除了基本的移动动作外,还包括"拾取"和"放下"两个额外动作。

为了进行纯视觉规划的探索,研究团队选择了仅在图像和视频帧上训练的大型视觉模型(LVM-3B),该模型没有接触过任何文本数据。这种设计选择消除了语言监督可能引入的干扰因素,实现了对视觉模态内推理能力的"纯净"研究。

研究团队还引入了几个系统变体作为基线,这些变体在监督模态(语言vs图像)和优化方法(SFT vs RL)方面有所不同,允许比较基于语言和基于视觉的规划,同时评估强化学习的作用:

1. 基于视觉的微调(VPFT):这是VPRL框架的简化变体,共享与第一阶段相同的训练架构,但用最优规划轨迹替代随机轨迹。

2. 文本中的监督微调(SFT):在这个基线中,规划被表述在语言模态中。模型不是生成动作的视觉后果,而是生成预期动作序列的文本描述。

此外,研究团队还评估了封闭源模型,包括Gemini 2.0 Flash和高级思考模型Gemini 2.5 Pro作为最先进的多模态推理参考。

实验结果令人惊叹:视觉规划(VPFT和VPRL)在所有任务上都取得了最高分数,优于所有基于语言推理的基线。使用相同的监督训练方法通过微调,VPFT在精确匹配率(EM)上超过了基于语言的SFT平均22%以上,而VPRL进一步扩大了这一差距。进展率(PR)也观察到类似的趋势。这突出了视觉规划范式在视觉为中心的任务中的优势,其中基于语言的方法可能与任务结构不太协调。

即使是大型封闭源系统或较小的开源MLLM等推理模型,在没有特定任务调整的情况下也难以处理这些规划任务。即使是高级思考模型Gemini 2.5 Pro在更复杂的MAZE和MINIBEHAVIOR任务上的EM和PR也几乎低于50%,这凸显了这些任务对当前模型的挑战,尽管对人类来说很直观。

两阶段强化学习方法(VPRL)产生了最高的整体性能,超过了所有系统变体。在第2阶段之后,模型在较简单的FROZENLAKE任务上实现了近乎完美的规划(91.6% EM,93.2% PR),并在MAZE和MINIBEHAVIOR任务上保持了强劲表现。这标志着在所有任务上比监督基线VPFT有显著的提升,提高了超过20%。正如预期的那样,VPRL训练的第1阶段,它强制输出格式但不教授规划行为,产生了接近随机的性能(例如,在FROZENLAKE上为11% EM)。经过第2阶段的优化和奖励方案的完整应用后,规划者达到了其最佳性能。

这种增益突出了RL相对于SFT的关键优势。VPRL允许模型自由探索多样化的动作并从其结果中学习,而VPFT则依赖于模仿并倾向于拟合训练分布。通过鼓励以奖励驱动的更新进行利用,VPRL学会捕捉底层规则和模式,导致更强的规划性能。

五、深入分析:视觉规划的优势与挑战

随着难度的增加,视觉规划的优势变得更加明显。当研究团队将FROZENLAKE环境中的网格大小从3×3增加到6×6时,Gemini 2.5 Pro的EM分数从98.0%急剧下降到38.8%。相比之下,视觉规划器不仅在所有网格大小上保持较高的准确率,还表现出更平坦的性能曲线。类似地,VPRL表现出比VPFT更强的稳定性,在3×3网格上的EM保持在97.6%,在6×6上仍然达到82.4%,表明具有很强的鲁棒性。

随着模型生成的视觉规划轨迹分析,研究团队观察到一些有趣的模式。模型有时会采取偏离最短路径的非最优动作,如FROZENLAKE示例中所示。无效动作包括违反物理约束(例如,在MAZE中穿墙或在MINIBEHAVIOR中进入桌子),或在单一步骤中执行多个动作。

与基于语言的推理系统相比,视觉规划也显示出一些显著的特征。在FROZENLAKE中,Gemini 2.5 Pro在第一步就错误解释了环境大小,导致级联错误,最终得出错误的最终答案。同样,基于语言的SFT基线在第三步做出了无效动作,反映了在推理过程中跟踪状态的困难。相比之下,视觉规划通过直接在视觉模态中推理并在每个动作中反映视觉状态,避免了此类失败。VPRL展示了绕过障碍物同时仍然朝向目标前进的能力,而VPFT因缺乏这种灵活性而陷入困境,无法到达目的地。

研究团队还进行了一个消融研究,隔离VPRL两阶段框架中第1阶段的影响。第1阶段的主要目的不是直接提高规划性能,而是初始化具有强大探索能力和有效输出格式的策略。为了验证这一点,研究团队重用了原始的VPFT训练流程,即从最优轨迹中学习,但从第1阶段检查点开始作为VPFT*。令人惊讶的是,这个变体在FROZENLAKE上的最终性能低于标准VPFT。这个结果支持了研究团队的假设,即第1阶段本身并不贡献规划能力,而是提供了有利于在第2阶段进行有效强化学习的探索友好初始化。

六、视觉规划的未来与影响

这项研究为人工智能推理开辟了一个全新方向。传统上,人工智能社区一直专注于通过语言进行推理,而这项工作表明,至少对于某些任务来说,在视觉域内进行推理可能更加自然和有效。

视觉规划范式的成功挑战了语言作为推理唯一媒介的假设,并为多模态AI系统的发展提供了新的设计考虑。未来的工作可能会探索更复杂的任务和环境,结合语言和视觉推理的混合系统,以及改进视觉规划的泛化能力。

尽管这项研究主要关注基于网格的导航任务,但其原则可以扩展到更广泛的领域,如机器人控制、物理系统模拟和交互式环境中的决策。通过允许AI系统在与问题性质最匹配的模态中"思考",我们可能会开发出更强大、更直观的AI系统。

这项研究也引发了关于人类认知与AI推理之间关系的思考。双重编码理论提出人类同时使用语言和非语言通道进行认知处理,而当前的AI系统主要依赖语言。通过开发能够在多种模态中推理的系统,我们可能会创造出更接近人类思维方式的AI。

值得注意的是,这项工作还处于初步阶段,研究团队使用的是相对简单的环境和任务。未来的研究需要解决更复杂的实际问题,以及如何将视觉规划与语言指令和反馈结合起来。

研究团队也承认了一些局限性。首先,他们专注于大型视觉模型(LVM)以消除语言作为混杂因素,这将模型大小限制在3B,并排除了最近发布的能够生成多模态输出的本地多模态模型。此外,显式生成图像在推理过程中引入了计算开销,尽管研究团队指出,基于语言的推理,特别是对于思考模型,可能同样或更加耗时。最后,本研究中状态-动作解析函数的实现较为简单,这可能限制了泛化到更广泛的任务设置的能力。

七、总结与展望

这项由剑桥大学、伦敦大学学院和谷歌研究人员共同完成的研究,介绍了一种全新的视觉规划范式,它使模型能够完全通过视觉状态转换进行操作,而无需文本中介。研究团队展示了纯视觉表示可以导致更有效和直观的规划,特别是在空间和动态任务中。

他们提出的两阶段强化学习框架VPRL,由GRPO赋能,进一步增强了大型视觉模型的规划能力。它在三个视觉导航任务上取得了显著的性能提升,比基于语言的规划性能高出40%以上,并在分布外场景中展示了更强的泛化能力。

这些发现突显了视觉规划作为基于文本方法强大替代品的前景。研究团队相信他们的工作为多模态研究开辟了一个丰富的新方向,为构建更加直观、灵活和强大的推理系统奠定了基础,这些系统可以应用于各种领域,从机器人导航到复杂的空间问题解决。

如同人类思维能够灵活地在语言和图像之间切换一样,未来的AI系统可能会学会在最适合任务的模态中进行"思考",从而达到更加智能和自然的问题解决能力。这项研究向我们展示了实现这一愿景的第一步。

代码已经在GitHub上公开发布(https://github.com/yix8/VisualPlanning),有兴趣的读者可以进一步探索这一创新范式。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。

  • 微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。

  • 用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。

  • 播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-