在2025年5月20日发表于arXiv预印本平台(arXiv:2505.14246v1)的一项突破性研究中,上海交通大学、上海人工智能实验室和武汉大学的研究团队联合发布了一种名为"视觉智能体强化微调"(Visual Agentic Reinforcement Fine-Tuning,简称Visual-ARFT)的创新方法。这项由刘子裕、臧宇航、邹宇珊、梁子健、董晓义、曹宇航、段浩东、林达华和王嘉琦领导的研究,旨在让大型视觉-语言模型(LVLMs)获得类似人类的主动性能力,能够使用外部工具解决复杂问题。
想象一下,你使用一个AI助手,它不仅能理解你的问题,还能主动采取行动帮你解决。当你向它展示一张模糊或者倾斜的图片并提问时,它不会简单地说"看不清",而是会自动写代码处理这张图片,调整亮度、旋转角度,然后再回答你的问题。或者,当你询问一张图片中的历史建筑与另一个名胜古迹的关系时,它会主动上网搜索相关信息,然后给你一个详尽的答案。这就是Visual-ARFT带来的能力。
在人工智能领域,最新一代的大型推理模型(如OpenAI的o3)已经展示出使用工具的原生能力,比如浏览网页搜索信息或编写代码处理图像。然而,在开源社区中,尽管语言模型的工具使用能力已取得显著进展,但涉及真正"用图像思考"的多模态智能体能力及其评估基准仍然较少被探索。
研究团队提出的Visual-ARFT方法,能够通过强化学习技术,教会视觉-语言模型如何像人类一样分析问题、制定计划、调用工具并进行复杂推理。这种训练方式不需要大量人工标注的数据,而是通过一种可验证的奖励信号来引导模型学习,使其在少量示例的基础上快速掌握新的能力。
为了评估模型的表现,研究者还设计了一个多模态智能体工具基准(MAT),包括MAT-Search(搜索任务)和MAT-Coding(编程任务)两个测试集。实验结果表明,经过Visual-ARFT训练的模型在这些测试集上显著优于基线模型,甚至在某些任务上超越了GPT-4o的表现。
接下来,让我们深入了解这项研究的核心内容,看看研究团队是如何让AI模型"活"起来的。
一、智能体强化学习:让AI模型学会使用工具的新方法
想象一下教一个孩子学习骑自行车。你不会只给他看无数骑车视频,然后期望他立刻掌握技巧。相反,你会让他尝试骑车,跌倒时给予指导,成功时给予奖励。Visual-ARFT方法正是采用了类似的学习机制。
传统的AI模型训练主要依赖监督学习,就像通过大量标记好的范例来教机器识别猫和狗的区别。但这种方法在教AI使用工具方面存在局限,因为人工创建的示例成本高昂且难以覆盖所有可能场景。强化微调(Reinforcement Fine-Tuning,RFT)则打开了另一扇门:它让模型通过尝试和错误来学习,就像人类学习新技能一样。
研究团队的核心洞察是:通过可验证的奖励信号来引导模型学习,而不是依赖复杂的奖励模型。这种可验证奖励基于简单的正确性检查,例如答案是否匹配、搜索查询是否相关等。这种方法已在DeepSeek-R1等模型中证明有效,现在被研究团队应用到视觉领域。
Visual-ARFT训练过程中,模型面对一个视觉问题时,会学习如何思考、调用工具(如搜索引擎或代码执行环境),然后解决问题。每次尝试后,模型都会根据结果获得奖励或惩罚,慢慢调整自己的策略,提高解决问题的能力。
这种训练方式使得模型能够学会在何时何地使用工具。比如,面对一张倾斜的图片时,模型学会先调用代码工具将图片旋转到正确角度;面对需要查找事实的问题时,模型懂得分解问题并搜索相关信息。整个过程就像教一个助手逐步掌握复杂任务的解决方法,而不仅仅是记住固定的答案。
二、多模态智能体工具基准:如何测试AI的"工具使用"能力
评估一个会使用工具的AI并不容易。这就像测试一个实习生不仅要看他的知识,还要看他能否灵活运用办公软件、查询数据库或使用其他专业工具完成工作。
研究团队开发的多模态智能体工具基准(MAT)正是为了全面评估模型的工具使用能力而设计的。MAT包含两个子任务:MAT-Search和MAT-Coding。
MAT-Search专注于测试模型通过搜索引擎获取信息的能力。想象你向AI助手展示一座著名建筑的照片,问它:"这座建筑的设计师还设计了哪些其他著名建筑?"一个具备搜索能力的AI需要识别图中建筑,搜索设计师信息,再查找该设计师的其他作品,最后整合信息给出答案。MAT-Search包含150个精心设计的多步骤视觉问答示例,需要模型分解问题并通过搜索工具获取缺失信息。
MAT-Coding则测试模型处理和分析图像的能力。比如,给模型展示一张模糊、旋转或只有部分区域清晰的图片,然后询问图片内容。一个有编码能力的模型会先调用Python代码处理图像(如旋转、裁剪、调整亮度),然后基于处理后的图像回答问题。研究团队设计了200个测试样本,涵盖各种图像处理场景。
这些测试集的设计考虑了不同难度等级。简单级别的任务可能只需要基本的工具使用,如单一搜索查询或简单的图像处理;而困难级别的任务则需要多步骤推理和复杂的工具交互,如多轮搜索或组合图像处理技术。
通过这些测试集,研究团队为工具增强型AI模型的评估提供了一个标准化框架,使不同模型的性能可以被公平比较。
三、Visual-ARFT的技术核心:奖励设计与训练方法
如果说强化学习是Visual-ARFT的学习框架,那么奖励设计则是其成功的关键所在。就像训练狗狗做新动作一样,什么时候给奖励、给多少奖励,直接决定了训练效果。
研究团队为Visual-ARFT设计了两种主要类型的奖励:格式奖励和准确性奖励。
格式奖励确保模型的输出遵循预定义的结构。例如,当模型需要思考时,它应当使用""标签;当需要搜索信息时,使用""标签;生成代码时使用""标签;给出最终答案时使用""标签。这种标准化格式使模型的推理过程更加透明,也便于评估其思考和行动的质量。
准确性奖励则根据不同的输出类型给予不同的评分标准:
对于最终答案,研究团队使用F1分数(一种测量预测准确度的指标)作为奖励,而不是严格的完全匹配。这给予模型更平滑的学习信号,允许部分正确的答案也获得相应奖励。
对于搜索查询,团队计算模型生成的查询与标准查询之间的语义相似度,这比单纯比较词汇重叠更能捕捉查询的真实意图。
对于代码生成,模型只要生成了可执行的代码块就会获得奖励,而不直接监督代码内容本身。这种设计鼓励模型灵活创新,而不是死记硬背固定的代码模板。
这些奖励共同构成了一个总体奖励函数,引导模型在训练过程中不断优化其行为。研究团队还采用了群组相对策略优化(Group Relative Policy Optimization,GRPO)算法进行训练,该算法在每次更新时都会考虑多个样本生成的策略梯度,同时防止模型偏离原始行为太远,保持训练稳定性。
训练过程中,对于搜索任务,研究者使用Serper API作为检索工具,提供Google搜索引擎的访问;对于编码任务,则设置了代码执行环境来处理模型生成的Python代码。整个训练在8个GPU上进行,每次更新使用8个采样生成来估计策略梯度。
四、实验结果:Visual-ARFT的惊人表现
研究团队在多个测试集上评估了Visual-ARFT的性能,结果令人惊喜。就像一个经过特训的助手,Visual-ARFT展示了卓越的推理能力和工具使用技巧。
首先,在MAT-Coding测试集上,经过Visual-ARFT训练的Qwen2.5-VL-7B模型相比基线模型有显著提升:F1分数提高了18.56%,完全匹配(EM)指标提高了13.00%。这一提升在困难子集上尤为明显,表明模型已经掌握了处理复杂图像识别任务的能力。更令人惊讶的是,即使只有3B参数的模型,经过Visual-ARFT训练后也能在某些任务上超越GPT-4o的表现。
在MAT-Search测试集上,7B模型同样表现出色,F1分数提高了10.28%,EM指标提高了8.66%。这些改进证明了模型已经学会如何分解多步骤问题,并通过搜索工具获取解决问题所需的信息。
研究团队还通过几个具体案例展示了Visual-ARFT的工作过程。在一个图像识别案例中,模型面对一个要求识别特定坐标区域文本的任务,它首先思考问题,然后编写Python代码裁剪图像,最后成功识别出目标区域的文字"FOOD DIRECTORY"。在另一个案例中,当被问及一个关于品牌名称含义的问题时,模型先搜索该品牌的总部所在国家,然后再查询品牌名称在该国语言中的含义,最终给出了完整准确的答案。
更令人印象深刻的是,Visual-ARFT在未见过的多步QA任务上也表现出色。在2Wiki、HotpotQA等现有多步QA基准测试中,Visual-ARFT带来了高达29.3%的F1提升和25.9%的EM提升。这表明模型学到的能力具有强大的泛化性,能够应用到各种推理任务中。
比较有趣的是,研究团队还发现单纯使用传统方法如检索增强生成(RAG)或思维链(CoT)并不能有效提升模型性能,有时甚至会导致性能下降。这说明对于基础模型来说,直接注入外部信息可能会导致信息干扰,而经过Visual-ARFT训练的模型则学会了如何有选择地利用外部信息支持复杂推理。
五、Visual-ARFT的意义与未来展望
Visual-ARFT的出现就像给AI装上了一双能够操作工具的手和一双善于观察的眼睛。这项技术不仅推动了多模态AI的发展,还为构建更智能、更有用的AI助手铺平了道路。
从技术角度看,Visual-ARFT解决了多模态智能体训练的关键难题:如何教会视觉-语言模型使用工具进行复杂推理。传统的监督学习方法需要大量标注数据,而Visual-ARFT通过强化学习和可验证奖励,只需少量示例就能让模型掌握新能力。这种数据效率对于构建复杂AI系统至关重要。
从应用角度看,具备工具使用能力的多模态AI可以在多个领域发挥作用。例如,在教育领域,它可以帮助视障学生理解图像内容;在科学研究中,它可以自动分析实验图像并检索相关文献;在日常生活中,它可以帮助用户处理文档图像、识别产品信息或解答旅游照片中的历史知识。
当然,像所有技术一样,Visual-ARFT也面临一些局限性。研究团队指出,当前实现主要集中在搜索和编码两种工具上,未来可以扩展到更多类型的工具使用。另外,MAT基准测试集虽然多样化,但规模相对较小,这可能限制对模型能力的全面评估。
展望未来,Visual-ARFT为构建更强大的多模态智能体指明了方向。随着技术的发展,我们可能会看到更多能够自主规划、推理和使用各种工具的AI系统出现,帮助人们解决更复杂的问题。就像研究团队所说的那样,Visual-ARFT提供了一条"构建强大且可泛化的多模态智能体的有希望的路径"。
好文章,需要你的鼓励
北航团队推出Easy Dataset框架,通过直观的图形界面和角色驱动的生成方法,让普通用户能够轻松将各种格式文档转换为高质量的AI训练数据。该工具集成了智能文档解析、混合分块策略和个性化问答生成功能,在金融领域实验中显著提升了AI模型的专业表现,同时保持通用能力。项目已开源并获得超过9000颗GitHub星标。
卢森堡计算机事件响应中心开发的VLAI系统,基于RoBERTa模型,能够通过阅读漏洞描述自动判断危险等级。该系统在60万个真实漏洞数据上训练,准确率达82.8%,已集成到实际安全服务中。研究采用开源方式,为网络安全专家提供快速漏洞风险评估工具,有效解决了官方评分发布前的安全决策难题。
中国电信研究院等机构联合开发的xVerify系统,专门解决复杂AI推理模型的评估难题。该系统能够准确判断包含多步推理过程的AI输出,在准确率和效率方面均超越现有方法,为AI评估领域提供了重要突破。
昆仑公司Skywork AI团队开发的Skywork R1V模型,成功将文本推理能力扩展到视觉领域。该模型仅用380亿参数就实现了与大型闭源模型相媲美的多模态推理性能,在MMMU测试中达到69.0分,在MathVista获得67.5分,同时保持了优秀的文本推理能力。研究团队采用高效的多模态迁移、混合优化框架和自适应推理链蒸馏三项核心技术,成功实现了视觉理解与逻辑推理的完美结合,并将所有代码和权重完全开源。