微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 机器也会做白日梦?麻省大学让AI学会"脑补"进行推理

机器也会做白日梦?麻省大学让AI学会"脑补"进行推理

2025-06-26 09:39
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-26 09:39 科技行者

这项由麻省大学阿默斯特分校的杨泽源、余雪阳、陈德霖团队与麻省理工学院的申茂浩、甘闯合作完成的研究发表于2025年6月,题为《机器心理想象:用潜在视觉标记赋能多模态推理》。有兴趣深入了解的读者可以通过项目主页 https://vlm-mirage.github.io 或GitHub代码库 https://github.com/UMass-Embodied-AGI/Mirage 访问完整研究资料。

说到底,当我们人类解决复杂问题时,大脑并不总是需要看到完整清晰的画面。比如当你在拼拼图时,你会在脑海中"想象"两个碎片拼在一起的样子,而不是真的去画出完整的图片。类似地,当你在陌生城市导航时,你会在心中构建一个简单的路线图,而不是绘制详细的地图。这种能力被科学家称为"心理想象"——我们的大脑能够构建和操作简化的视觉线索来帮助推理。

然而,目前的视觉语言模型虽然在理解图片和文字方面表现出色,但它们只能通过文字来表达所有的推理过程。这就像让一个只会说话的人来解决需要画图才能解决的数学题一样困难。当遇到需要空间想象的任务时,比如走迷宫或者判断拼图碎片是否匹配,这些AI模型往往力不从心。

最近确实有一些研究尝试让AI既能生成文字又能生成图片,但这种做法就像让一个人同时成为文学家和画家一样,往往顾此失彼。生成完整图片需要大量的计算资源和训练数据,而这种训练往往会削弱模型的推理能力。更重要的是,这些模型无法生成与输入图片相关的中间推理步骤。

麻省大学的研究团队受到人类心理想象机制的启发,提出了一个名为"Mirage"的创新框架。这个框架的核心思想是让AI模型像人类一样,在推理过程中生成简化的"心理图像",而不是完整的像素级图片。这些"心理图像"以潜在的数学向量形式存在,就像人脑中模糊但有用的想象画面一样。

**一、从文字推理到多模态想象的飞跃**

传统的视觉语言模型就像一个只会用语言描述的导游。当你问它如何走出迷宫时,它只能说"先向右走,然后向上走",但无法在脑海中构建路径的视觉表示。这种纯文字的推理方式在处理空间关系、视觉匹配等任务时显得力不从心。

Mirage框架的突破在于让AI模型学会在推理过程中插入"latent visual tokens"——我们可以把它们理解为压缩的视觉记忆片段。当模型需要"视觉思考"时,它会将当前的内部状态转换为这些特殊的视觉标记,然后继续基于这些标记进行推理。这个过程完全在模型内部进行,不需要生成实际的图片。

这种方法的巧妙之处在于模仿了人类的思考过程。当你解决拼图问题时,你并不会在脑海中生成照片级别的完整图像,而是构建一些关键的视觉线索——比如边缘的形状、颜色的匹配等。Mirage正是让AI学会了这种简化但有效的视觉推理方式。

为了实现这个目标,研究团队设计了一个两阶段的训练方法。在第一阶段,他们让模型学会生成与真实图像特征相匹配的潜在视觉标记,就像教孩子认识物体的轮廓和特征。在第二阶段,他们移除了对这些视觉标记的直接监督,让模型自由地调整这些标记来更好地服务于最终的推理目标。

**二、巧妙的数据合成:为AI制造"想象素材"**

要训练AI学会视觉想象,首先需要为它准备合适的训练材料。这就像教孩子画画,你需要先给他看一些范例。研究团队为不同类型的推理任务设计了专门的"辅助图像"生成方法。

对于迷宫导航任务,他们会在地图上用红色箭头标出正确的路径,就像在旅游地图上画出推荐路线一样。对于拼图任务,他们会将候选的拼图片段与参考图像组合在一起,让模型能够直观地看到组合效果。对于需要空间推理的任务,他们甚至使用了先进的视频生成模型来创建相应的场景图像。

有了这些辅助图像后,研究团队会让一个大型的视觉语言模型(Qwen2.5-VL 32B)来生成相应的推理过程。他们会给这个模型展示原始问题、辅助图像和正确答案,然后要求它生成一个逐步的推理链,说明如何利用辅助图像来得出答案。

这个过程就像是创建一个详细的思考示例集。比如对于一个迷宫问题,生成的推理过程可能是这样的:"我首先向上移动以避开前方的障碍物,然后根据红色箭头的指引继续向右移动,直到到达目标位置。"通过这种方式,研究团队构建了一个包含图像和文字交替出现的训练数据集。

**三、两阶段训练:从模仿到创新的学习过程**

Mirage的训练过程分为两个精心设计的阶段,每个阶段都有其独特的目的和方法。

第一阶段被称为"联合监督阶段",这个阶段的目标是让模型学会生成有意义的潜在视觉标记。研究团队首先将辅助图像通过视觉编码器转换为图像特征,然后使用平均池化等技术将这些特征压缩为几个关键的向量。这些压缩后的向量就代表了图像中最重要的视觉信息。

在训练过程中,模型需要同时完成两个任务。一方面,它要像普通的语言模型一样预测下一个文字;另一方面,当轮到生成视觉标记时,它的内部状态必须与目标的压缩图像向量相匹配。这种双重监督确保了潜在视觉标记能够真正承载有用的视觉信息。

第二阶段被称为"潜在松弛阶段",这个阶段的核心思想是给模型更多的自由度。研究团队移除了对视觉标记的直接监督,只保留对文字部分的监督。模型现在需要自己生成潜在视觉标记,并利用这些自生成的标记来帮助后续的文字推理。

这种设计的巧妙之处在于平衡了约束和自由。第一阶段确保了视觉标记有实际意义,而第二阶段让模型学会灵活运用这些标记。就像学习绘画,先要临摹大师作品掌握基本技法,然后才能发挥创意画出自己的作品。

训练完成后,研究团队还使用了强化学习来进一步优化模型的表现。他们采用了组相对策略优化(GRPO)方法,根据答案的正确性和格式规范性来给模型打分,引导它朝着更好的方向发展。

**四、实验验证:从空间推理到拼图匹配的全面测试**

为了验证Mirage框架的有效性,研究团队在四个不同的空间推理基准测试上进行了全面评估。这些测试涵盖了从简单的路径规划到复杂的视觉匹配等各种任务。

在VSP(视觉空间规划)任务中,模型需要在模拟的迷宫环境中进行导航。这个任务包含两个子任务:空间推理和空间规划。在空间推理任务中,给定一系列动作,模型需要预测最终状态;在空间规划任务中,模型需要设计一条从起点到终点的路径。实验结果显示,Mirage在空间推理任务上达到了89%的准确率,比纯文字方法提高了4个百分点;在空间规划任务上达到了60%的准确率,比纯文字方法提高了9个百分点。

BLINK-Jigsaw任务测试的是模型从不完整视觉输入中推断全局结构的能力。在这个任务中,模型需要判断哪个拼图片段能够完成缺失的部分。Mirage在这个任务上的表现同样出色,达到了98%的准确率,显著超过了其他基线方法。

SAT(空间能力训练)任务评估的是静态和动态空间关系的理解能力。在合成数据上,Mirage达到了98%的准确率,在真实数据上也达到了72%的准确率,都明显优于传统方法。

研究团队还在COMT数学几何子集上进行了测试,这个任务涉及更正式的空间推理。Mirage在这个任务上达到了77%的准确率,同样展现出了良好的性能。

有趣的是,当研究团队与其他尝试生成完整图像的统一模型(如Anole和MVoT)进行比较时,发现这些复杂的模型反而表现不如Mirage。这证明了"少即是多"的哲学——专注于生成关键的视觉线索比试图生成完整图像更有效。

**五、深入分析:揭开"机器想象"的神秘面纱**

为了更好地理解Mirage框架的工作机制,研究团队进行了一系列深入的分析实验。

首先,他们验证了两阶段训练的必要性。实验显示,如果只进行第一阶段训练,模型虽然能生成有意义的视觉标记,但这些标记过于受限,无法灵活适应不同的推理需求。如果只进行第二阶段训练,模型缺乏视觉基础,生成的标记与视觉内容关联性很弱。只有两个阶段结合,才能实现既有视觉基础又有推理灵活性的效果。

其次,他们研究了不同超参数对性能的影响。实验发现,潜在视觉标记的数量在2到6个之间时效果最好,超过8个会导致性能下降,这可能是因为过长的潜在序列在自回归生成过程中容易累积错误。损失函数的权重系数在0.1到1之间都能获得不错的效果,显示了框架的稳健性。

研究团队还对模型在不同规模上的表现进行了测试。他们发现,即使在较小的Qwen2.5-VL 3B模型上,Mirage仍然能够带来显著的性能提升,在某些任务上的改进甚至比7B模型更明显。这说明了这种方法的通用性和可扩展性。

为了验证合成数据的质量,研究团队将生成的辅助图像直接提供给模型作为输入。结果发现,在这种情况下,模型几乎能够达到100%的准确率,这证明了合成数据的高质量,也为Mirage的性能提升提供了理论上限。

最引人注目的是对潜在标记本身的分析。研究团队使用t-SNE可视化技术将潜在视觉标记、文字标记和图像标记映射到二维空间中。结果显示,文字标记分布在整个空间中,图像标记聚集在一个紧密的视觉子空间内,而Mirage生成的潜在视觉标记则位于视觉子空间的边缘附近。这种分布模式表明,潜在视觉标记既保持了与视觉内容的联系,又通过第二阶段的训练获得了适应任务需求的灵活性。

**六、技术创新:从理论到实践的完美结合**

Mirage框架的技术创新体现在多个层面上。从理论角度来看,它首次在视觉语言模型中引入了类似人类心理想象的机制,这为AI推理能力的发展开辟了新的方向。从实践角度来看,它提供了一种既高效又有效的解决方案。

在架构设计上,Mirage的巧妙之处在于它不需要任何外部的图像解码器。当模型决定进行"视觉思考"时,它简单地重用当前的隐藏状态作为视觉标记,跳过语言投影层直接将这些状态添加到上下文中。这种设计既简单又高效,避免了复杂的多模态架构带来的计算开销。

在训练策略上,两阶段的训练方法体现了教育学中"先模仿后创新"的原理。第一阶段让模型学会了视觉表示的基础知识,第二阶段则给予了它创新的空间。这种渐进式的学习方法比一步到位的训练更稳定、更有效。

在数据合成方面,针对不同任务设计专门的辅助图像生成方法体现了"因材施教"的思想。每种任务都有其独特的视觉需求,统一的方法往往无法满足所有需求。通过任务特定的数据合成,Mirage能够为每种推理类型提供最合适的视觉支持。

从效率角度来看,Mirage的两个训练阶段在单个NVIDIA H100 GPU上分别需要3.5小时和7.2小时,总计不到11小时。相比之下,传统的纯文字链式思维训练需要5.5小时。虽然Mirage的训练时间略长,但考虑到性能的显著提升,这种额外的计算成本是完全值得的。

**七、应用前景:从实验室到现实世界的转化**

Mirage框架的成功不仅仅是学术上的突破,更重要的是它为实际应用开辟了广阔的前景。在自动驾驶领域,这种视觉推理能力可以帮助车辆更好地理解复杂的交通场景,在脑海中构建路径规划而不需要生成完整的环境地图。在机器人导航方面,Mirage可以让机器人像人类一样在心中构建简化的空间表示来指导行动。

在教育技术领域,这种技术可以用于开发更智能的学习辅助系统。比如在几何教学中,AI可以像人类老师一样在"脑海"中构建图形来解释复杂的空间关系。在游戏AI领域,Mirage可以让非玩家角色具备更自然的空间推理能力,提供更真实的游戏体验。

在医疗影像分析方面,这种技术可以帮助AI系统更好地理解复杂的医学图像。医生在诊断时往往需要在脑海中构建病变的三维结构,Mirage式的推理方法可以让AI系统具备类似的能力。

在建筑设计和城市规划领域,这种视觉推理能力可以帮助AI系统理解空间布局和功能关系,协助设计师进行更合理的规划。在制造业中,这种技术可以用于质量检测和装配规划,让机器能够像熟练工人一样理解复杂的空间关系。

**八、局限性与未来发展方向**

尽管Mirage框架取得了显著的成功,但研究团队也诚实地指出了当前方法的一些局限性。

首先是合成数据质量的问题。Mirage的性能很大程度上依赖于高质量的多模态训练轨迹,而这些轨迹的生成需要精心设计的工具和方法。当前的数据合成方法虽然有效,但仍有改进空间。研究团队提到,开发更好的数据合成方法是一个重要的未来研究方向。

其次是与统一模型的整合问题。虽然Mirage在当前的实验中表现优于统一的文字-图像生成模型,但这些统一模型在训练过程中已经通过图像和文字标记的联合生成对齐了潜在空间。如何将Mirage的设计理念与这些预训练的对齐特征空间结合,仍然是一个开放的研究问题。

第三是任务范围的限制。目前的评估主要集中在空间推理任务上,虽然这些任务具有代表性,但Mirage在其他类型的多模态推理任务上的表现还需要进一步验证。将这种方法扩展到更广泛的任务类型,包括纯文本任务,是一个值得探索的方向。

研究团队也指出了一些技术层面的改进空间。比如,当前的压缩方法使用的是简单的平均池化,更sophisticated的压缩技术可能会带来更好的效果。在训练策略方面,如何更好地平衡两个阶段的学习目标,以及是否可以设计端到端的训练方法,都是值得研究的问题。

**九、科学意义:重新定义AI的思考方式**

Mirage框架的意义远超出了技术本身,它为我们重新思考AI的认知机制提供了新的视角。传统的AI系统往往采用"输入-处理-输出"的线性模式,而Mirage引入了类似人类思维的"内部想象"机制,这种机制让AI能够在推理过程中构建和操作内部表示。

从认知科学的角度来看,这项研究为"具身认知"理论提供了计算层面的支持。具身认知理论认为,智能不仅仅来自于抽象的符号操作,还需要与感知和行动的紧密结合。Mirage通过让AI系统在推理中使用压缩的视觉表示,体现了这种认知理论的核心思想。

从机器学习的角度来看,Mirage提供了一种新的多模态学习范式。它表明,不是所有的多模态推理都需要生成完整的感知输出,有时候压缩的、任务特定的表示可能更加有效。这种观点可能会影响未来多模态AI系统的设计方向。

研究还为理解大规模语言模型的内部机制提供了新的工具。通过分析潜在视觉标记在嵌入空间中的分布,研究团队展示了一种理解和可视化模型内部表示的方法,这种方法可以推广到其他类型的AI系统中。

**十、对比分析:Mirage与现有方法的深度比较**

为了更好地理解Mirage的优势,有必要将其与现有的几类方法进行详细比较。

与纯文字推理方法相比,Mirage的主要优势在于引入了视觉维度的思考。传统的链式思维方法虽然能够产生逐步的推理过程,但在处理空间关系时往往力不从心。就像用语言描述一个复杂的几何图形一样,纯文字的描述很难传达空间的直观性。Mirage通过潜在视觉标记补充了这种直观性,让AI能够"看见"推理过程中的关键视觉线索。

与统一的图像-文字生成模型相比,Mirage采用了一种更加专注和高效的方法。统一模型试图掌握从像素级图像生成到复杂推理的所有能力,这种"全才"的设计往往导致在特定任务上的性能妥协。Mirage专注于推理任务的核心需求,避免了生成完整图像的复杂性和计算开销。实验结果也证实了这种专注策略的有效性。

与使用外部工具的多模态推理方法相比,Mirage提供了一种更加内化和流畅的解决方案。外部工具方法虽然能够利用专门的视觉分析工具,但这种方法往往需要复杂的工具调用机制,而且工具的选择和使用本身就是一个需要学习的复杂问题。Mirage将视觉推理能力内化到模型中,避免了这些额外的复杂性。

与人类认知机制相比,Mirage展现了有趣的相似性和差异性。相似之处在于,人类在进行空间推理时确实会构建简化的心理图像,而不是完整的视觉场景。差异之处在于,人类的心理想象是一个动态的、交互的过程,而Mirage目前生成的是静态的潜在表示。未来的研究可以探索更加动态的潜在视觉推理机制。

**十一、实验细节:严谨的科学验证过程**

Mirage框架的验证过程体现了严谨的科学研究态度。研究团队不仅在多个基准测试上进行了评估,还进行了全面的消融实验和分析。

在数据集构建方面,研究团队为每个任务精心设计了合成方法。对于VSP任务,他们确保每个地图都包含有效路径,陷阱块不超过20%,并且按照不同的网格大小进行分层采样。对于拼图任务,他们随机选择候选片段与参考图像组合。对于SAT任务,他们使用了最新的视频生成模型来创建相应的场景。

在训练配置方面,研究团队采用了精心调优的超参数。他们使用Adam优化器,学习率设置为1e-5,批次大小为8,梯度累积步数为2。这些参数的选择基于大量的预实验和调优过程。训练过程中,除了视觉编码器外,模型的所有组件都是可训练的。

在评估方法方面,研究团队不仅关注最终的准确率,还分析了模型在不同难度级别上的表现。比如在VSP任务中,他们分别报告了不同级别(Level 3-6)的性能,展示了模型随任务复杂度变化的表现趋势。

在统计分析方面,研究团队进行了多次独立运行以确保结果的可靠性。他们固定了随机种子以确保实验的可重复性,这种做法体现了开放科学的精神。

在对比实验设计方面,研究团队不仅与自己的基线方法进行比较,还与其他最新的方法进行了对比。他们特别关注了公平性,确保所有方法都在相同的数据集和评估标准下进行比较。

说到底,Mirage框架为AI领域带来了一个重要的启示:有时候,模仿人类的认知机制比追求技术的复杂性更有效。通过让AI学会"想象"而不是"看见",研究团队找到了一条通向更智能推理的新路径。

这项研究不仅在技术上取得了显著突破,更重要的是它改变了我们对AI推理能力的理解。它告诉我们,智能不仅仅来自于处理复杂信息的能力,更来自于抓住关键信息并灵活运用的智慧。正如人类在思考时不需要在脑海中重现完整的现实世界一样,AI也可以通过简化但有效的内部表示来实现强大的推理能力。

对于普通人来说,这项研究的意义在于它让我们看到了AI发展的新可能性。未来的AI助手可能不再是冰冷的计算机器,而是能够像人类一样进行空间想象和视觉推理的智能伙伴。当你向它询问路线规划或空间布局问题时,它能够在"脑海"中构建相应的场景来给出更准确的答案。

研究团队在论文的最后谦逊地指出,虽然Mirage取得了令人鼓舞的结果,但这只是探索"机器心理想象"这个新领域的第一步。未来还有许多问题需要解决,比如如何处理更复杂的推理任务,如何与大规模的统一模型更好地结合,以及如何将这种方法扩展到更广泛的应用领域。但正是这种开放和谦逊的态度,让我们对这个研究方向的未来发展充满期待。

最终,Mirage框架提醒我们,在追求AI技术进步的道路上,有时候回头看看人类是如何思考和推理的,可能会给我们带来意想不到的启发。毕竟,最好的技术往往不是最复杂的,而是最贴近自然智能本质的。

Q&A

Q1:Mirage是什么?它和普通的AI有什么不同? A:Mirage是麻省大学开发的一种新型AI推理框架,最大的不同在于它能像人类一样进行"视觉想象"。普通AI只能用文字描述来推理,而Mirage能在"脑海"中生成简化的视觉线索来辅助思考,就像人类解拼图时会在心中想象片段拼接的样子。

Q2:Mirage会不会比生成完整图像的AI模型更好? A:实验证明确实如此。那些能生成完整图像的AI模型虽然看起来更强大,但往往在推理任务上表现不如Mirage。这是因为生成完整图像需要大量计算资源,反而削弱了推理能力。Mirage专注于生成关键的视觉线索,更高效也更有效。

Q3:普通人什么时候能用到这种技术? A:目前Mirage还在研究阶段,但它的应用前景很广阔。未来可能出现在导航软件、教育软件、游戏AI等领域。比如你问导航软件路线时,它能像人类一样在"脑海"中构建路径图给出更好的建议,或者在学习几何时AI老师能更直观地解释空间关系。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-