2025年5月,上海交通大学Ethan Chern、Zhulin Hu、Steffi Chern等研究者与复旦大学的Jiadi Su、Yan Ma以及上海交通大学的Zhijie Deng和Pengfei Liu共同发表了一篇突破性论文《Thinking with Generated Images》(用生成图像思考)。这篇发表在arXiv预印本平台(arXiv:2505.22525v1)的研究,为大型多模态模型(LMMs)带来了一种全新的思维方式。研究团队的开源代码已在GitHub(https://github.com/GAIR-NLP/thinking-with-generated-images)上公开供学术界和开发者使用。
一、为什么AI需要"用图像思考"?
想象一下,当你尝试解决一个复杂问题时,你的思维过程是怎样的?是不是经常会在脑海中勾勒出图像,甚至画草图来帮助自己理解?人类的认知过程本质上是多模态的。生物化学家通过探索蛋白质结构来发现新的治疗方法;法医分析师通过验证犯罪现场重建来建立证据联系;建筑师通过修改空间和光线模式来优化建筑设计。视觉思考能够创造独特的组合和概念间的新联系,帮助我们发现纯文本推理无法发现的可能性。
然而,当前的AI系统存在明显局限。即使是最先进的大型多模态模型(LMMs)也只能"看到"图像——它们在前向传递过程中只处理一次图像,而不能更深入地"用图像思考"。想象一下,如果你只能看一眼图纸就必须设计出整个建筑,或者只能瞥一眼案发现场就要还原完整犯罪过程,这显然是不合理的。
正如孙子兵法所言:"详细的思考导向胜利;不充分的思考导向失败。"这一古老智慧同样适用于AI系统。虽然大型语言模型(LLMs)在被提示写思维链(Chain-of-Thought,CoT)时可以遍历中间状态,随着推理计算增加而提高性能(即测试时扩展),但这种纯文本的思维链过程只能捕捉认知搜索的一部分视角。
为解决这一问题,研究团队提出了"用生成图像思考"(Thinking with Generated Images)的创新范式。与以往仅依赖用户提供的图像或对这些图像进行简单操作的方法不同,这种新范式使AI模型能够主动生成自己的视觉步骤或子目标来解决问题。这就像给AI提供了"视觉想象力",使其能够通过生成中间视觉思维步骤,在文本和视觉模态之间自然思考。
二、"用生成图像思考"如何工作?
研究团队通过引入"原生长多模态思维过程"(native long-multimodal thought process)实现了"用生成图像思考"。这一过程使统一的大型多模态模型能够无缝生成中间视觉思维,建立视觉子目标,并在单一连贯的推理过程中迭代地批评自己的视觉假设。
简单来说,这就像给AI模型配备了一个内部"画板",让它能够随时绘制草图来帮助自己思考,然后对这些草图进行评价和改进,直到找到满意的解决方案。这种方法自然地在模态间执行测试时扩展,使模型的思维能力随着推理深度的增加而提升。
研究团队展示了两种互补机制来实现这一目标:
首先是"带中间视觉子目标的视觉生成"。想象一个厨师在准备复杂菜肴时,会先分别准备各种配料,然后将它们组合在一起。同样,AI模型会将复杂的视觉任务分解为可管理的组件,生成这些组件,然后逐步整合它们。例如,当被要求生成一张"沙发和酒杯的照片"时,模型会先单独生成沙发,再生成酒杯,最后将两者合理地组合在一张图像中。
其次是"带自我批评的视觉生成"。这就像一位艺术家先勾勒出草图,然后批评性地分析其不足之处,最后基于这些反思创作出精细的作品。AI模型会生成初始视觉假设,通过文本推理分析其缺点,然后基于自己的批评生成改进的输出。例如,当模型生成了一个海滩场景后,它会分析图像中的问题(如"缺乏色彩鲜艳的沙滩伞"),然后生成一个修正这些问题的新版本。
这两种机制不仅提高了模型处理复杂视觉任务的能力,还开启了AI系统与人类创造性思维过程更为接近的可能性。
三、技术实现:如何让AI学会用图像思考?
实现"用生成图像思考"的关键挑战在于,如何构建一个能够自然地在多种模态间思考的统一模型系统。研究团队选择了基于自回归式下一个token预测的大型语言模型(LLMs)作为基础架构。
他们使用了Anole(Chern等人,2024)作为基础模型,这是一种统一的自回归下一个token预测大型多模态模型,能够直接预测下一个多模态(文本或图像)token。Anole模型相比其他LMMs具有几个关键优势:首先,它在交错的文本-图像token上进行预训练和后训练,使其具备生成交错多模态token的内在能力;其次,Anole的图像表示相对高效,每个图像仅用1024个token编码,使原生长多模态思维过程在合理的推理计算预算内变得可行;最后,Anole的建模策略与最先进的LLMs非常相似,能够利用现有的LLMs训练和推理基础设施。
研究团队精心策划了监督微调(SFT)数据集,包含多样化的视觉(图像)生成提示,以确保高质量的对齐。为了使LMMs能够执行原生长多模态思维过程,他们精心设计和构建了解决方案多模态推理链,以引导LMMs的能力自发地(1)批评自己生成的视觉步骤和(2)生成中间视觉子目标。
在训练方面,研究团队设计了结合交叉熵损失和重建损失的损失函数,以提高生成图像的视觉质量。训练分为两个阶段:首先在JourneyDB数据集上对Anole-7b进行持续训练,增强模型的基本视觉生成能力;然后使用构建的合成数据集进行微调,产生了两个模型:TwGI-Anole-7b-Obj.(使用中间视觉子目标数据集)和TwGI-Anole-7b-Crit.(使用自我批评视觉假设数据集)。
四、实验结果:AI的视觉思维能力有多强?
研究团队在GenEval和DPGBench这两个标准图像生成基准上评估了他们的方法。结果令人印象深刻——"用生成图像思考"的方法在处理复杂多物体场景时取得了显著改进,相对基线方法提高了高达50%(从38%到57%)的性能。
具体来看,在GenEval基准测试中,TwGI-Anole-7b-Obj.模型在"两个物体"类别中显著优于基线Anole-7b模型(0.57对比0.38),表明其处理涉及多个实体的复杂提示的能力有所提高。它在位置和颜色属性对齐方面也显示出显著改进,表明其进行精确空间和视觉组合推理的能力更强。
同样,在DPGBench上,TwGI-Anole-7b-Obj.在"实体"、"属性"和"关系"类别中取得了实质性的改进,反映了其对细粒度视觉语义的增强理解。这些改进验证了研究团队的假设:将视觉任务分解为中间子目标使LMMs能够更系统地推理并生成更高质量的输出。
更令人惊讶的是,通过"带自我批评的视觉生成",模型能够纠正和改进自己的视觉假设。例如,TwGI-Anole-7b-Crit.模型在自我批评步骤后实现了显著的性能提升,将整体GenEval分数从0.45提高到0.48,DPGBench分数从62.83提高到67.14。这表明,通过文本推理链基于视觉反馈内省地分析生成的图像的能力,使模型能够识别不匹配、幻觉或缺失元素,并随后纠正它们。
这种视觉反馈循环反映了一种模态间协同作用,其中视觉和文本模态相互迭代引导,就像人类在解决复杂问题时的思维过程一样。
五、未来展望与局限性
虽然"用生成图像思考"展示了令人兴奋的潜力,但研究团队也坦诚地指出了当前方法的局限性。首先,当前实现是基于Anole-7b模型的,而统一LMMs领域(特别是在开源领域)仍处于发展阶段。随着更强大的统一LMMs的出现,研究团队预计"用生成图像思考"范式将释放更强大甚至是涌现的能力。
其次,虽然本研究专注于自回归下一个token预测的LMMs,但核心理念可能适用于基于扩散的LMMs或混合自回归/扩散的LMMs。这些架构上的探索留待未来研究。
研究团队还提出了几个有前景的未来研究方向:
1. 更好的基准测试:"用生成图像思考"。当前的视觉生成基准测试专注于标准图像生成任务,但随着LMMs固有能力的增强和涌现能力的出现,像图1和图2中所示的真实世界任务将变得越来越可行。需要更现实的基准来评估这些模型。
2. 统一LMMs的测试时和后训练扩展:本研究代表了统一LMMs测试时扩展的第一步。随着更强大的统一LMMs的出现,测试时扩展和后训练扩展将变得更加可行、有效,值得进一步探索。
3. LMMs的高效视觉表示:高效的视觉表示对于在视觉模态中实现可扩展的测试时和后训练扩展至关重要。最近的研究表明,图像可以用少至32甚至16个token/patch有效表示,这一研究方向在未来有巨大潜力。
六、"用生成图像思考"的现实应用前景
"用生成图像思考"范式为AI系统在各种真实世界应用中开启了变革性的可能性。从生物化学家探索新型蛋白质结构,建筑师迭代空间设计,到法医分析师重建犯罪现场,以及篮球运动员设想战术打法,这种方法使AI模型能够参与一种视觉想象和迭代改进的过程,这种过程体现了人类创造性、分析性和战略性思维的特点。
例如,在医学研究领域,科学家可以利用这种能力来探索新的分子结构,通过让AI不断生成和改进可能的分子构型,帮助发现新的药物治疗方法。在建筑设计中,专业人士可以与AI协作,通过视觉迭代优化建筑空间的光线、功能和美学特性。在刑事侦查中,这种技术可以帮助重建事件序列,基于有限的证据生成可能的场景,并通过批判性思考识别最合理的解释。
最令人兴奋的是,随着统一LMMs能力的不断增强,我们可以预见未来的AI模型将能够像人类一样自然地探索蛋白质结构或修改建筑设计——就像写一首诗那样直观和流畅。这种能力将彻底改变专业人士与AI系统的交互方式,使创造性和分析性任务变得更加高效和创新。
七、结语:多模态思维的新时代
"用生成图像思考"的研究为我们展示了AI系统如何逐渐接近人类的多模态认知能力。通过使AI能够在文本和视觉之间自然地思考,这项工作不仅提高了模型处理复杂视觉生成任务的能力,还为未来AI系统如何解决需要视觉推理和创造力的问题提供了一个框架。
正如人类在面对复杂问题时自然地利用多种思维模式一样,这项研究表明,AI系统也能受益于整合多种模态的思维能力。虽然当前的实现主要专注于文本和视觉模态,但核心理念可以扩展到更多样化的模态,如音频、触觉或三维空间表示。
随着统一LMMs技术的不断发展和成熟,我们可以期待未来的AI系统将能够更加流畅地在多种模态间思考,从而解决当前AI仍然难以应对的复杂任务,如直观物理理解、长期规划和创造性设计。这项研究不仅为多模态认知和复杂视觉推理任务的未来研究奠定了基础,也为人工智能与人类思维方式更加接近的未来描绘了令人兴奋的蓝图。
如果你对这项研究感兴趣,可以通过GitHub(https://github.com/GAIR-NLP/thinking-with-generated-images)访问研究团队的开源代码,或查阅原始论文以了解更多技术细节。
好文章,需要你的鼓励
这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。
复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。
斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。
这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。