微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

开启视觉思维：通过视觉工具强化学习赋能大型视觉语言模型

人工智能视觉工具强化学习大型视觉语言模型

开启视觉思维：通过视觉工具强化学习赋能大型视觉语言模型

作者：Hugging Face

2025-05-16 17:02

分享至：

一项由苏州大学、微软等机构合作的研究OPENTHINKIMG首次提出了完整的视觉工具强化学习框架，解决了当前大型视觉语言模型缺乏视觉思维的问题。该研究基于Qwen2-VL-2B基础模型，开发了V-TOOLRL方法，通过分布式工具部署、轨迹生成和强化学习，使AI能像人类一样"用图像思考"。实验表明，在图表推理任务上，该方法准确率达59.39%，显著超越了同类开源系统并优于GPT-4.1，为未来AI视觉认知提供了新路径。代码已在GitHub开源，将促进相关领域研究。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-16 17:02 • Hugging Face

2025年5月，一项来自苏州大学、微软、复旦大学等多所顶尖高校和研究机构共同合作的重大研究成果在arXiv预印本平台发布。这项名为"OPENTHINKIMG: Learning to Think with Images via Visual Tool Reinforcement Learning"的研究由苏州大学的赵辰、微软的李林杰、复旦大学的宋明阳等多位研究者共同完成，论文编号为arXiv:2505.08617v1。该项目的代码已在GitHub开源，有兴趣的读者可以通过https://github.com/zhaochen0110/OpenThinkIMG查看完整实现。

一、人类与机器的思维差距：为何我们需要"用图像思考"

想象一下，当你面对一道几何题时，你会怎么做？大多数人不会仅仅盯着题目思考，而是会拿起笔来画辅助线、标记关键点，或者在图形上涂涂画画以帮助理解问题。这种"用图像思考"的能力是人类认知的自然组成部分，我们不仅能看懂图像，还能通过视觉交互来分解和操作复杂信息。

然而，目前的大型视觉语言模型（LVLMs）虽然在识别图像和回答问题上取得了长足进步，但它们的思考方式与人类有着根本差异。当这些模型面对视觉推理任务时，它们主要依靠文本中间步骤来思考，即使问题本质上是视觉性的。就像一个人试图闭着眼睛解决几何问题，只用语言描述每一步，而不借助任何视觉辅助——这显然不是最有效的方法。

研究团队正是看到了这一差距，提出了OPENTHINKIMG框架，旨在教会AI模型像人类一样"用图像思考"。这不仅是技术上的创新，更是认知方式的革命性转变——从纯文本推理到工具增强的视觉认知。

简单来说，OPENTHINKIMG就像是给AI配备了一套视觉"工具箱"，并教会它如何灵活运用这些工具。就像人类使用尺子、放大镜或荧光笔来理解复杂图表一样，AI现在也能借助各种视觉工具来增强其理解和推理能力。

二、当前视觉AI的三大挑战

虽然有些研究已经开始探索如何让AI使用视觉工具，但目前的方法面临几个关键的挑战，就像是给厨师提供了各种厨具但没有教会他们如何有效地使用它们。

首先是工具定义和接口的混乱问题。想象一下，如果你去五家不同的餐厅，每家餐厅都有一种叫"切菜刀"的工具，但每把刀的形状、大小和使用方法都完全不同——这会让厨师感到非常困惑。同样，在AI研究中，同名的工具（如"分割"或"定位"）往往因为后端实现或任务假设的不同而表现出完全不同的行为，这严重阻碍了标准化和研究复现。

其次是生成训练数据的高成本。创建教AI使用工具的训练数据就像是要为厨师编写详细的烹饪指南，不仅要说明每一步该做什么，还要解释为什么这样做。这需要大量的人工模板或不够稳健的启发式方法，限制了可扩展性和准确性验证。

第三个也是最关键的挑战是训练泛化能力有限。现有方法通常采用监督式微调（SFT）来让模型学习使用工具，这就像只让厨师严格按照食谱操作，而不教会他们理解食材特性和烹饪原理。这种方法难以泛化到未见过的工具或任务，也缺乏探索和动态适应的机制。

三、OPENTHINKIMG：搭建视觉工具学习的全流程框架

为了应对这些挑战，研究团队构建了OPENTHINKIMG——第一个整合视觉工具接口标准化、轨迹生成扩展和工具使用训练的端到端开源框架。

想象OPENTHINKIMG像是一座现代化的烹饪学校，它不仅统一了所有厨具的规格和使用标准，还开发了高效的教学方法，并创新性地引入了让学生自主探索烹饪的学习机制。这座"学校"的核心部分包括：

首先是视觉工具与模型集成。OPENTHINKIMG提供了一个统一的注册表，让不同的视觉工具和骨干模型能够无缝集成，几乎不需要额外编码。就像一个标准化的工具架，每个工具都有明确的位置和使用说明。研究团队精心挑选了一系列视觉工具，涵盖了视觉交互和推理的各个方面。

例如，GROUNDINGDINO工具能根据文本描述在图像中定位物体，就像在拥挤的画面中精确找出你描述的特定物品；SAM（Segment Anything Model）工具可以生成精细的分割掩码，就像能准确勾勒出物体边缘的魔法笔；OCR工具则负责从图像中提取文本，就像一个能读懂图中所有文字的助手。其他工具还包括用于裁剪图像的CROP、用于精确定位的POINT，以及用于绘制参考线的DRAWHORIZONTALLINEBYY和DRAWVERTICALLINEBYX等。

在部署方面，OPENTHINKIMG做出了一个关键的架构选择——分布式部署视觉工具，这与之前将所有工具加载到单一内存空间的方法形成鲜明对比。这种模块化设计就像是让每个专业厨师负责自己最擅长的菜系，而不是要求一个厨师掌握所有烹饪技巧。这大大提高了系统的可扩展性，增强了故障隔离能力，并允许对每个工具进行独立更新和资源分配。

四、V-TOOLRL：教AI学会主动探索工具使用策略

OPENTHINKIMG框架最创新的部分莫过于V-TOOLRL——一种全新的增强学习方法，用于教导模型学习自适应工具调用策略。这就像不仅教厨师按照食谱烹饪，还教会他们如何根据食材状态和个人喜好灵活调整烹饪方法。

V-TOOLRL包含两个关键模块：冷启动模块和增强学习模块。

冷启动阶段就像是给厨师提供基础烹饪训练。在这个阶段，模型通过监督式微调（SFT）学习使用视觉工具的基础能力。具体来说，模型会学习生成完整的工具使用轨迹，包括何时调用哪个工具、如何解释工具输出以及如何整合这些信息来解决问题。这一阶段使用的损失函数是交叉熵损失，目的是让模型能够尽可能准确地模仿预先生成的工具使用轨迹。

然而，真正的创新在于随后的增强学习阶段。研究团队使用了群组式近端策略优化（GRPO）算法，并将其扩展以适应视觉工具展开。就像让厨师在掌握基本技能后进入真实的厨房环境，通过实践和反馈不断完善自己的烹饪技巧。

在这个阶段，对于每个问题，系统会采样一组候选动作轨迹，然后通过视觉工具执行这些计划的动作序列，获得相应的展开结果。基于最终答案质量和中间工具输出，系统会计算每一步的奖励，并在每批轨迹内导出组内相对优势。这种方法不仅考虑了最终结果是否正确，还关注整个推理过程的质量，从而引导模型学习更有效的工具使用策略。

奖励设计方面，研究团队采用了基于规则的准确度奖励来优化模型。对于每个问题，系统会比较模型预测的答案与标准答案，如果两者等价，则给予+1的奖励，否则给予-1的惩罚。这种简单明确的奖励机制鼓励端到端推理，减轻了奖励黑客行为（即模型找到取巧方式获得高奖励但实际效果不佳的行为），并促进了自适应工具调用策略的形成。

五、构建高质量的视觉工具使用轨迹

要训练一个能有效使用工具的AI，首先需要高质量的示例数据，就像教厨师烹饪需要精心编写的食谱一样。研究团队提出了一种创新的批量生成轨迹数据的方法，包括三个主要步骤：

首先是动作轨迹规划。对于每个样例（由问题和图像组成），系统利用GPT-4o的少样本任务分解能力生成初始行动计划。这个阶段就像是让一位经验丰富的主厨根据菜品描述和原料图片，规划出详细的烹饪步骤，但不实际动手操作。系统会精心设计几个示范例子来引导模型的生成过程，并使用适当的温度参数来鼓励探索，同时拒绝缺少必要步骤或包含不支持动作的计划。

第二步是理由解析和工具调用完成。有了象征性的计划后，系统会批量调用相应的视觉工具，获取展开输出。这就像是按照食谱中的指示实际操作，并记录每一步的结果。系统使用JSON模式和json.loads来解析每个工具的响应，自动将输出与相应的动作对齐。为了提高效率，系统会缓存输出并以最多128个样例的并行批次进行处理。

最后是过滤和基于规则的验证。为确保轨迹质量，研究团队应用了多阶段过滤程序。首先，任何包含格式错误的JSON或缺失输出的轨迹都会被丢弃。接着，系统使用QWEN2-VL-72B模型与基于规则的检查（如边界框一致性、掩码覆盖、OCR准确性）来评估最终答案和中间理由。然后，应用逻辑一致性检查并丢弃任何不通过的轨迹。此外，还纳入了人工评估，进一步确认过滤后数据的准确性。

通过结合自动基于规则的过滤和人工验证，这种方法确保只有高质量的推理路径被用于训练，为冷启动和V-ToolRL阶段提供了坚实的基础。

六、图表推理实验：V-TOOLRL的实际效果

理论再完美，也需要实践验证。研究团队选择了CHARTGEMMA数据集进行实验，这个数据集包含需要一步步解决的图表推理问题，非常适合评估V-TOOLRL学习自适应工具使用的能力。

数据收集与构建方面，研究团队将数据集分为14,501个训练样本和1,000个测试样本。为了初始化模型的策略，团队精心策划了一个专门的训练子集，生成了1,471个工具使用轨迹。为了防止模型过度拟合特定工具序列并保持其一般推理能力，研究团队用同等数量的基于文本的思维链（CoT）推理数据增强了这个轨迹数据。这个混合数据集共计2,942个例子，形成了冷启动过程的基础。随后，整个14,501个训练样本的池被用于V-TOOLRL训练期间，为代理提供了探索和学习最佳工具调用策略的环境。

实验使用4或8块NVIDIA Tesla A100 GPU进行，采用DeepSpeed Zero-Stage 3和FlashAttention-2来实现高效并行训练。以Qwen2-VL-2B-Instruct模型为主要骨干，训练过程包括两个阶段：冷启动期间，模型训练2个周期，学习率为2e-5，批量大小为128；V-TOOLRL期间，模型训练500步，使用AdamW优化器，初始学习率为1e-6，最大序列长度设为2048个标记，批量大小为144。

研究结果令人瞩目！V-TOOLRL方法在CHARTGEMMA测试集上取得了59.39%的准确率，远超其他开源工具增强框架，如TACO-8B（30.50%）和COGCOM-13B（15.07%）。这一优势特别值得注意，因为V-TOOLRL使用的是2B参数的Qwen2-VL基础模型，而这些对手使用的是8B和13B参数的更大模型。结果强烈表明，团队的增强学习范式比依赖预定义CoTA或CoM动作序列的监督方法更有效。与高能力的封闭源模型相比，V-TOOLRL（59.39%）不仅显著提升了开源模型性能，还明显超过了GPT-4.1（50.71%），并在需要结构化工具交互的复杂图表推理任务上达到了与GEMINI（68.20%）竞争的结果。

七、深入分析：V-TOOLRL如何改变AI的思考方式

通过对V-TOOLRL训练动态的详细分析，研究团队揭示了几个关键发现，帮助我们理解为什么这种方法效果如此显著。

首先是工具调用效率的大幅提升。想象一位厨师最初尝试使用每一种可用的厨具来完成一道菜，但随着经验积累，逐渐学会只使用真正必要的工具。研究团队追踪了训练阶段每个样本的平均工具调用次数，发现了明显的学习曲线：最初，平均工具使用相对较高，约为每个样本0.63次调用，可能反映了早期探索阶段或从冷启动阶段继承的初始策略。然而，随着训练进行，工具调用次数迅速且显著下降。大约在250-300训练步后，平均工具调用数稳定在一个非常低的值，大约在每个样本0.10到0.12次调用之间。这一明显的下降趋势强烈表明，增强学习过程有效地培养了工具使用效率。模型学会了高度选择性，主要在工具的实用性能提供明确的获取奖励路径时才调用工具，从而隐含地惩罚了多余或冗余的工具调用。

同时，推理复杂性也在不断发展。就像一位厨师不仅学会了使用更少的工具，还能创造出更复杂、更精致的菜肴。研究团队通过监测V-ToolRL训练期间的平均完成长度观察到这一现象。从最初约66个标记的平均长度开始，模型的输出逐渐延长，最终在约400-450训练步后稳定在83到86个标记的范围内。这种稳定的完成长度增加表明，随着代理通过V-TOOLRL变得更擅长利用工具，它同时发展出了生成更精细和详细推理叙述的能力。这些延长的完成内容可能包含更全面的思维链（CoT）步骤、对工具使用的明确理由以及更好地整合从工具输出中获取的信息。这种详细推理对于解决图表分析等内在复杂任务至关重要。

此外，视觉反馈的重要性也得到了充分证明。通过对比V-TOOLRL（橙色曲线）与一个缺少视觉工具输出直接集成的TEXT-BASED RL基线（蓝色曲线），研究团队发现V-TOOLRL在整个训练过程中始终保持更高的奖励准确率，并显示出更陡的学习曲线，特别是在初始的100-200训练步中，表明更快的收敛到有效策略。虽然两种方法都在接近500步时显示出趋于平稳的迹象，但V-TOOLRL稳定在一个明显更高的准确率水平。这一持续的差距凸显了将视觉工具交互的视觉反馈直接纳入增强学习循环的关键贡献。V-TOOLRL优越的性能和学习效率确认了使代理能够"看到"并对其工具使用的视觉结果做出反应对于掌握复杂的、视觉基础的推理任务是至关重要的。

八、案例研究：当AI真正开始"用图像思考"

通过实例分析我们可以更直观地看到V-TOOLRL如何通过学习工具调用，实现比GPT-4.1更准确的推理能力。

在一个饼图分析案例中，要回答"非洲地区'Fruity & Floral'和'Rich & Bold'偏好之间的百分比差异是多少？"这个问题时，V-TOOLRL先使用ZOOMINSUBFIGURE工具放大相关区域，然后用OCR提取精确数值，正确计算出15.0%的差异。而GPT-4.1直接通过视觉读取，却误解了数值，得出错误的22.0%结果。这展示了工具辅助数据提取对于密集图表的强大精确性。

同样，在线图趋势分析中，需要回答"在1970年到2000年之间，哪个洋流的强度增加最大？"时，V-TOOLRL模型使用POINT和DRAWVERTICALLINEBYX工具来精确比较强度变化，正确识别出三个洋流增加幅度相同的情况。而GPT-4.1因缺乏这些明确的定位工具，未能识别出这一平局情况。

这些案例清晰地表明，V-TOOLRL学会的策略——利用工具进行针对性信息收集和视觉增强——比直接解释更准确、更透明，尤其是在精确度至关重要的场景中。

九、OPENTHINKIMG的意义与未来

OPENTHINKIMG框架的提出，标志着视觉AI研究进入了一个新阶段。就像人类思维的进化不仅依赖于大脑的计算能力，还依赖于我们使用工具延伸认知的能力，AI也正沿着类似的路径发展。

这项研究不仅提供了技术工具，更重要的是提出了一种新的思维方式——让AI学会"用图像思考"。这种能力对于需要精细空间理解、迭代感知和精确视觉内容交互的任务至关重要，如医学影像分析、科学数据可视化理解、自动驾驶场景解析等。

随着OPENTHINKIMG框架的开源发布，研究团队希望能促进社区协作，推动工具增强视觉推理的进一步发展，帮助开发真正能够"用图像思考"的AI代理。未来的研究方向可能包括扩展工具集、优化增强学习策略、探索多模态工具交互等。

这项研究的最大启示或许是：真正强大的AI不仅需要内部的推理能力，还需要学会与外部世界互动，利用各种工具来增强自身的认知。正如人类通过使用工具拓展了我们的能力边界，未来的AI也将通过学习使用各种专用工具，不断突破其认知的限制。

人工智能视觉工具强化学习大型视觉语言模型

分享至