在人工智能研究的浩瀚星空中,有一颗新星正在冉冉升起。这项由加州大学圣克鲁兹分校的Yue Fan、Xuehai He、Diji Yang、Kaizhi Zheng和Xin Eric Wang,以及eBay的Ching-Chen Kuo、Yuting Zheng、Sravana Jyothi Narayanaraju和Xinze Guan共同完成的研究,于2025年5月21日发表在arXiv预印本平台(arXiv:2505.15879v1)。这项研究名为"GRIT: Teaching MLLMs to Think with Images"(GRIT:教会多模态大语言模型用图像思考),为我们揭示了一种新的方法,让AI系统能够像人类一样,在思考问题时直接参考视觉信息。有兴趣深入了解的读者可以通过https://grounded-reasoning.github.io访问相关研究内容。
想象一下,当你看到一张鸟巢的图片,有人问你:"巢里有多少个蛋?"作为人类,你会怎么做?你可能会看着图片,指着每一个蛋,一个一个地数:"这里有一个,这里有一个..."同时,你的眼睛和大脑会自然地将注意力集中在图片的特定区域上。这种"边看边思考"的能力对我们来说再自然不过,但对AI系统来说却是一项艰巨的挑战。
目前的多模态大语言模型(MLLMs)虽然能同时处理文字和图像,但它们在推理过程中往往只能生成纯文本描述,而无法明确指出它们在图像中关注的具体区域。这就像是一个学生在解答问题时,只给出答案和一些含糊的解释,而没有清晰地指出他是如何一步步推理的,也没有明确标出他在图像中看到了什么。这种方式不仅缺乏透明度,也无法让我们确认AI是否真正"理解"了图像内容。
GRIT框架的出现,正是为了解决这一问题。它教会AI在思考时明确地指出它在看图像的哪些部分,就像是在说:"我看到这个区域(指向图像中的特定位置)有一个蓝色的蛋,然后在这个区域(指向另一个位置)有一个绿色的蛋..."这种方式不仅让AI的推理过程更加清晰,也让我们能够验证AI是否真正关注了正确的视觉信息。
更令人惊讶的是,GRIT方法只需要20个训练样本就能使模型学会这种能力,这在数据饥渴的AI领域堪称奇迹。这就像是只需要向孩子展示20个例子,他们就能掌握一种全新的思考方式一样神奇。
一、GRIT:视觉推理的新范式
传统的推理模型训练方法通常是让模型在给出最终答案前,先生成一系列思考步骤,被称为"思维链"(Chain-of-Thought)。这种方法在纯语言领域取得了很大成功,比如DeepSeek-R1这样的模型展示了出色的复杂任务处理能力。但当这种方法扩展到视觉语言领域时,现有的开源视觉推理模型往往只能生成纯文本的推理内容,缺乏对视觉信息的明确整合。
这就好比一个人在解释一幅画时,只用文字描述而不指出他正在谈论画面中的哪个部分。这种方式导致推理过程不够清晰,也不够扎实地建立在视觉输入的细节上。要解决这个问题,关键问题是如何赋予模型"用图像思考"的能力,让它们能像人类一样在思考过程中自然地引用视觉输入。
然而,实现这一能力面临重大技术挑战。当前的多模态大语言模型设计用来生成语言标记,缺乏在推理链中直接生成图像的固有机制。此外,处理和理解穿插多个视觉元素的推理序列也是一个重大障碍,因为许多多模态大语言模型难以在一个输入中跨多个图像维持上下文。除了这些技术挑战外,数据也是一个主要障碍。在大多数情况下,对于复杂的多模态问题,没有唯一正确的推理路径,而明确纳入视觉证据的人工标注数据极其稀缺。
GRIT方法引入了一种新颖的基于图像和文本的推理范式,模型生成的自然语言推理链可以自由混合指向输入图像中相关区域的边界框坐标。这些边界框用于指示模型在推理过程中正在查阅的特定视觉信息。
为了简化推理过程,在生成边界框坐标后,模型不会在提出的基于图像的推理范式中接收额外的像素输入;相反,模型根据其对原始输入图像的理解来理解和利用这些坐标所指示的视觉信息。通过用生成的边界框裁剪输入图像,得到的推理链可以被可视化为交错的文本和输入图像中突出显示的区域。
想象一下,这就像是一位老师在解释一幅复杂的画作时,不仅用语言描述,还会用手指指向画面中的特定部分说:"看这里的构图..."、"注意这个角落的细节..."。这种方式让听者更容易理解老师的解释,也能确认老师确实在关注正确的视觉元素。GRIT就是在教AI学会这种"边看边思考、边指边说"的能力。
二、GRPO-GR:强化学习助力模型掌握新能力
要训练多模态大语言模型在基于图像的推理范式中生成推理链,GRIT采用了GRPO-GR,一种基于GRPO算法构建的强化学习方法。它配备了专门针对推理和视觉定位格式的新型奖励,除了答案准确性外,这种奖励机制重点关注的是输出的格式而非内容。
具体来说,这种格式奖励鼓励推理输出由思考标记对(例如,和)和重新思考标记对(例如,和)来构建;它还奖励在生成序列中包含语法上有效的边界框。因此,GRPO-GR中的奖励不限制推理步骤的具体文本内容或基于图像的区域的语义准确性,从而消除了对带有推理链注释或明确边界框标签的数据的需求。
这就像是教一个孩子学习解答数学题时,我们不是告诉他每一步该怎么思考,而是鼓励他写下自己的思考过程,并在适当的地方画图标注。只要他的格式正确(先思考,然后整理思路,最后给出答案),我们就给予奖励,而不去干涉他具体思考了什么。这种方式让孩子能够发展出自己的思考方式,而不是机械地模仿别人。
GRIT方法的一个显著成果是它极其高效的数据利用率:它使多模态大语言模型只需使用从现有VQA数据集获取的20个图像-问题-答案三元组,就能获得基于图像的推理能力。这些训练样本来自视觉空间推理(VSR)和TallyQA数据集,前者侧重于空间关系验证,后者侧重于计数任务。
三、实验验证:GRIT的强大效果
研究团队使用GRIT方法训练了两个最先进的多模态大语言模型——Qwen 2.5-VL和InternVL 3,每个模型都只使用了20个来自VSR和TallyQA数据集的图像-问题-答案三元组。GRIT训练的一个重要成果是,训练后的模型保持了它们的广泛通用性,不仅能有效处理视觉问答任务,还能处理以视觉定位为主的指代表达理解任务。
在实验中,研究团队使用了从各种基准测试中收集的测试数据,包括视觉问答和指代表达理解两种任务。通过这些实验,他们揭示了几个关键观察结果:
首先,训练后的模型有效地统一了视觉定位和推理能力——这些能力原本在基础多模态大语言模型中是固有但分离的。通过定性和定量分析,研究团队发现模型生成的推理链中,引用的图像区域和伴随的文本之间存在高度相关性。
其次,边界框的生成促使后续模型推理更有效地关注输入视觉信息。研究团队通过实验证明,模型在生成了边界框后,其对图像内容的注意力会显著提高,这有助于保持推理过程的视觉一致性。
最后,随着训练数据的增加,使用GRIT训练的模型表现有所提高,但这也揭示了提高泛化能力的挑战。研究团队观察到,模型在同源数据(VSR和TallyQA)上的表现提升比在异源数据(如GQA和MathVista-mini)上更显著,这表明增加训练数据的多样性比简单地扩大数据量更为关键。
在具体的评估指标上,GRIT训练的模型在GPT评判的答案准确率和视觉定位IoU(交并比)两方面都优于基线模型。即使只用20个训练样本,GRIT训练的模型不仅在VSR和TallyQA(训练中看到的两个数据集)上的GPT评判答案准确率有所提高,还能有效地泛化到其他域外数据,表明其具备强大的推理能力。
在视觉定位IoU指标上,尽管GRIT训练的模型并未直接针对此指标进行优化,但它们在定位问题相关的图像区域方面的表现优于基线模型。值得注意的是,在OVDEval测试数据上,GRIT训练的模型比零样本多模态大语言模型取得了更准确的检测结果,突显了它们在视觉定位能力方面的新兴改进。
四、深入理解:边界框与自然语言如何协同工作
GRIT训练的模型能够生成各种各样的基于图像的推理内容。由于GRIT方法的奖励设计不对推理链的内容施加严格限制,模型学会了灵活的推理策略,能够无缝适应各种查询。
具体来说,GRIT训练的模型有时会直接提供答案,然后在后续推理中反映这个答案;而在其他情况下,它们会首先执行视觉定位动作来识别视觉证据,然后在后续推理中分析所选的图像区域。更重要的是,这些模型能够动态确定是否需要视觉定位,从而显著减少误定位的情况。例如,对于输入图像中不存在的实体的查询,模型不会生成错误的视觉定位,展示了强大的多模态推理能力。
为了系统评估GRIT训练模型的基于图像的推理链中图像区域和自然语言内容之间的连贯性,研究团队引入了视觉-语言推理跨模态相关性指标。这一指标利用GPT-4o的强大集合标记能力,通过比较模型生成的边界框和随机采样的边界框与文本推理的相关性,来评估语义连贯性。
实验结果表明,使用GRIT框架训练的模型在这一指标上优于基线模型,显示出与文本推理高度相关的图像区域选择,尽管与人工编写的推理链相比仍有差距,表明未来改进的空间。
此外,GRIT训练的模型在生成视觉整合的思考过程时,会交错推理和视觉定位动作。为了进一步理解生成的边界框如何影响后续推理,研究团队检查了推理过程中对输入视觉标记的注意力分数。
通过比较原始重新思考段落和移除边界框后的重新思考内容生成时的视觉注意力,研究团队发现,原始重新思考段落中对每个视觉标记的平均注意力分数明显高于无边界框的重新思考段落。这表明,原始推理中边界框的存在导致了后续推理链中对视觉的注意力增加,这可能有利于推理过程的图像一致性。
五、数据规模效应:质量与数量的平衡
为了了解GRIT的性能如何随着训练数据的增加而扩展,研究团队训练了Qwen2.5-VL 2B模型的变体,分别使用20、500和7,000个图像-问题-答案三元组。这些样本取自VSR和TallyQA数据集,保持相同的数据源混合。
研究团队在第4.1节中介绍的测试数据集上评估了这些训练变体,使用GPT评判的答案准确率分数。结果显示,随着用于GRIT的训练数据量的增加,答案准确率通常会提高。
然而,研究团队发现,与在领域内测试数据(来自与训练相同的数据集,如VSR和TallyQA)上观察到的增长相比,域外测试数据(GQA和MathVista-mini)的答案准确率改进更为微妙,这凸显了泛化的常见挑战。
此外,他们观察到模型性能增长有所减少,表明持续改进可能需要指数级更多的数据。研究团队根据最近的研究解释了这一观察结果,这些研究表明,使用可验证奖励的强化学习主要是将现有推理模式偏向奖励结果,而不是从根本上改变它们,并且性能也受预训练的强烈影响。
这意味着要显著提高GRIT训练模型的域外性能,增加训练数据的多样性比简单地扩大数据量更为关键,这强调了未来研究的一个关键方向。
总结来说,GRIT框架的提出为多模态大语言模型的视觉推理能力带来了质的飞跃。它不仅让模型能够在推理过程中明确指出它关注的图像区域,还能让这些区域与推理内容紧密相关,从而提高了推理的透明度和可验证性。更重要的是,GRIT只需要极少量的训练数据就能使模型习得这种能力,这对于资源有限的研究团队来说是一个极大的优势。
虽然目前的研究主要集中在较小的多模态大语言模型上,验证GRIT方法和效率,而不是探索通过完整规模的扩展实现峰值性能,但研究团队已经确定了进一步提高GRIT训练模型泛化能力的关键方向是数据多样性和模型预训练。尽管如此,GRIT在使用最少数据灌输复杂基于图像的推理方面的有效性突显了其巨大潜力。
对于我们普通人来说,这项研究意味着未来的AI助手将能够更清晰地解释它们看到了什么,以及它们是如何基于视觉信息得出结论的。这不仅会增强人机交互的透明度,还会让我们更容易理解和信任AI系统的决策过程。就像一个好的导游不仅会告诉你"这是一座历史悠久的建筑",还会指出"看这里的石雕,它展示了当时的工艺水平",未来的AI也将能够提供这种清晰、有根据的解释。
好文章,需要你的鼓励
这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。
复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。
斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。
这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。