微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 让AI看图"动起来":上海交大与上海人工智能实验室打造会搜索会写代码的多模态智能助手

让AI看图"动起来":上海交大与上海人工智能实验室打造会搜索会写代码的多模态智能助手

2025-05-26 17:50
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-26 17:50 科技行者

在2025年5月20日发表于arXiv预印本平台(arXiv:2505.14246v1)的一项突破性研究中,上海交通大学、上海人工智能实验室和武汉大学的研究团队联合发布了一种名为"视觉智能体强化微调"(Visual Agentic Reinforcement Fine-Tuning,简称Visual-ARFT)的创新方法。这项由刘子裕、臧宇航、邹宇珊、梁子健、董晓义、曹宇航、段浩东、林达华和王嘉琦领导的研究,旨在让大型视觉-语言模型(LVLMs)获得类似人类的主动性能力,能够使用外部工具解决复杂问题。

想象一下,你使用一个AI助手,它不仅能理解你的问题,还能主动采取行动帮你解决。当你向它展示一张模糊或者倾斜的图片并提问时,它不会简单地说"看不清",而是会自动写代码处理这张图片,调整亮度、旋转角度,然后再回答你的问题。或者,当你询问一张图片中的历史建筑与另一个名胜古迹的关系时,它会主动上网搜索相关信息,然后给你一个详尽的答案。这就是Visual-ARFT带来的能力。

在人工智能领域,最新一代的大型推理模型(如OpenAI的o3)已经展示出使用工具的原生能力,比如浏览网页搜索信息或编写代码处理图像。然而,在开源社区中,尽管语言模型的工具使用能力已取得显著进展,但涉及真正"用图像思考"的多模态智能体能力及其评估基准仍然较少被探索。

研究团队提出的Visual-ARFT方法,能够通过强化学习技术,教会视觉-语言模型如何像人类一样分析问题、制定计划、调用工具并进行复杂推理。这种训练方式不需要大量人工标注的数据,而是通过一种可验证的奖励信号来引导模型学习,使其在少量示例的基础上快速掌握新的能力。

为了评估模型的表现,研究者还设计了一个多模态智能体工具基准(MAT),包括MAT-Search(搜索任务)和MAT-Coding(编程任务)两个测试集。实验结果表明,经过Visual-ARFT训练的模型在这些测试集上显著优于基线模型,甚至在某些任务上超越了GPT-4o的表现。

接下来,让我们深入了解这项研究的核心内容,看看研究团队是如何让AI模型"活"起来的。

一、智能体强化学习:让AI模型学会使用工具的新方法

想象一下教一个孩子学习骑自行车。你不会只给他看无数骑车视频,然后期望他立刻掌握技巧。相反,你会让他尝试骑车,跌倒时给予指导,成功时给予奖励。Visual-ARFT方法正是采用了类似的学习机制。

传统的AI模型训练主要依赖监督学习,就像通过大量标记好的范例来教机器识别猫和狗的区别。但这种方法在教AI使用工具方面存在局限,因为人工创建的示例成本高昂且难以覆盖所有可能场景。强化微调(Reinforcement Fine-Tuning,RFT)则打开了另一扇门:它让模型通过尝试和错误来学习,就像人类学习新技能一样。

研究团队的核心洞察是:通过可验证的奖励信号来引导模型学习,而不是依赖复杂的奖励模型。这种可验证奖励基于简单的正确性检查,例如答案是否匹配、搜索查询是否相关等。这种方法已在DeepSeek-R1等模型中证明有效,现在被研究团队应用到视觉领域。

Visual-ARFT训练过程中,模型面对一个视觉问题时,会学习如何思考、调用工具(如搜索引擎或代码执行环境),然后解决问题。每次尝试后,模型都会根据结果获得奖励或惩罚,慢慢调整自己的策略,提高解决问题的能力。

这种训练方式使得模型能够学会在何时何地使用工具。比如,面对一张倾斜的图片时,模型学会先调用代码工具将图片旋转到正确角度;面对需要查找事实的问题时,模型懂得分解问题并搜索相关信息。整个过程就像教一个助手逐步掌握复杂任务的解决方法,而不仅仅是记住固定的答案。

二、多模态智能体工具基准:如何测试AI的"工具使用"能力

评估一个会使用工具的AI并不容易。这就像测试一个实习生不仅要看他的知识,还要看他能否灵活运用办公软件、查询数据库或使用其他专业工具完成工作。

研究团队开发的多模态智能体工具基准(MAT)正是为了全面评估模型的工具使用能力而设计的。MAT包含两个子任务:MAT-Search和MAT-Coding。

MAT-Search专注于测试模型通过搜索引擎获取信息的能力。想象你向AI助手展示一座著名建筑的照片,问它:"这座建筑的设计师还设计了哪些其他著名建筑?"一个具备搜索能力的AI需要识别图中建筑,搜索设计师信息,再查找该设计师的其他作品,最后整合信息给出答案。MAT-Search包含150个精心设计的多步骤视觉问答示例,需要模型分解问题并通过搜索工具获取缺失信息。

MAT-Coding则测试模型处理和分析图像的能力。比如,给模型展示一张模糊、旋转或只有部分区域清晰的图片,然后询问图片内容。一个有编码能力的模型会先调用Python代码处理图像(如旋转、裁剪、调整亮度),然后基于处理后的图像回答问题。研究团队设计了200个测试样本,涵盖各种图像处理场景。

这些测试集的设计考虑了不同难度等级。简单级别的任务可能只需要基本的工具使用,如单一搜索查询或简单的图像处理;而困难级别的任务则需要多步骤推理和复杂的工具交互,如多轮搜索或组合图像处理技术。

通过这些测试集,研究团队为工具增强型AI模型的评估提供了一个标准化框架,使不同模型的性能可以被公平比较。

三、Visual-ARFT的技术核心:奖励设计与训练方法

如果说强化学习是Visual-ARFT的学习框架,那么奖励设计则是其成功的关键所在。就像训练狗狗做新动作一样,什么时候给奖励、给多少奖励,直接决定了训练效果。

研究团队为Visual-ARFT设计了两种主要类型的奖励:格式奖励和准确性奖励。

格式奖励确保模型的输出遵循预定义的结构。例如,当模型需要思考时,它应当使用""标签;当需要搜索信息时,使用""标签;生成代码时使用""标签;给出最终答案时使用""标签。这种标准化格式使模型的推理过程更加透明,也便于评估其思考和行动的质量。

准确性奖励则根据不同的输出类型给予不同的评分标准:

对于最终答案,研究团队使用F1分数(一种测量预测准确度的指标)作为奖励,而不是严格的完全匹配。这给予模型更平滑的学习信号,允许部分正确的答案也获得相应奖励。

对于搜索查询,团队计算模型生成的查询与标准查询之间的语义相似度,这比单纯比较词汇重叠更能捕捉查询的真实意图。

对于代码生成,模型只要生成了可执行的代码块就会获得奖励,而不直接监督代码内容本身。这种设计鼓励模型灵活创新,而不是死记硬背固定的代码模板。

这些奖励共同构成了一个总体奖励函数,引导模型在训练过程中不断优化其行为。研究团队还采用了群组相对策略优化(Group Relative Policy Optimization,GRPO)算法进行训练,该算法在每次更新时都会考虑多个样本生成的策略梯度,同时防止模型偏离原始行为太远,保持训练稳定性。

训练过程中,对于搜索任务,研究者使用Serper API作为检索工具,提供Google搜索引擎的访问;对于编码任务,则设置了代码执行环境来处理模型生成的Python代码。整个训练在8个GPU上进行,每次更新使用8个采样生成来估计策略梯度。

四、实验结果:Visual-ARFT的惊人表现

研究团队在多个测试集上评估了Visual-ARFT的性能,结果令人惊喜。就像一个经过特训的助手,Visual-ARFT展示了卓越的推理能力和工具使用技巧。

首先,在MAT-Coding测试集上,经过Visual-ARFT训练的Qwen2.5-VL-7B模型相比基线模型有显著提升:F1分数提高了18.56%,完全匹配(EM)指标提高了13.00%。这一提升在困难子集上尤为明显,表明模型已经掌握了处理复杂图像识别任务的能力。更令人惊讶的是,即使只有3B参数的模型,经过Visual-ARFT训练后也能在某些任务上超越GPT-4o的表现。

在MAT-Search测试集上,7B模型同样表现出色,F1分数提高了10.28%,EM指标提高了8.66%。这些改进证明了模型已经学会如何分解多步骤问题,并通过搜索工具获取解决问题所需的信息。

研究团队还通过几个具体案例展示了Visual-ARFT的工作过程。在一个图像识别案例中,模型面对一个要求识别特定坐标区域文本的任务,它首先思考问题,然后编写Python代码裁剪图像,最后成功识别出目标区域的文字"FOOD DIRECTORY"。在另一个案例中,当被问及一个关于品牌名称含义的问题时,模型先搜索该品牌的总部所在国家,然后再查询品牌名称在该国语言中的含义,最终给出了完整准确的答案。

更令人印象深刻的是,Visual-ARFT在未见过的多步QA任务上也表现出色。在2Wiki、HotpotQA等现有多步QA基准测试中,Visual-ARFT带来了高达29.3%的F1提升和25.9%的EM提升。这表明模型学到的能力具有强大的泛化性,能够应用到各种推理任务中。

比较有趣的是,研究团队还发现单纯使用传统方法如检索增强生成(RAG)或思维链(CoT)并不能有效提升模型性能,有时甚至会导致性能下降。这说明对于基础模型来说,直接注入外部信息可能会导致信息干扰,而经过Visual-ARFT训练的模型则学会了如何有选择地利用外部信息支持复杂推理。

五、Visual-ARFT的意义与未来展望

Visual-ARFT的出现就像给AI装上了一双能够操作工具的手和一双善于观察的眼睛。这项技术不仅推动了多模态AI的发展,还为构建更智能、更有用的AI助手铺平了道路。

从技术角度看,Visual-ARFT解决了多模态智能体训练的关键难题:如何教会视觉-语言模型使用工具进行复杂推理。传统的监督学习方法需要大量标注数据,而Visual-ARFT通过强化学习和可验证奖励,只需少量示例就能让模型掌握新能力。这种数据效率对于构建复杂AI系统至关重要。

从应用角度看,具备工具使用能力的多模态AI可以在多个领域发挥作用。例如,在教育领域,它可以帮助视障学生理解图像内容;在科学研究中,它可以自动分析实验图像并检索相关文献;在日常生活中,它可以帮助用户处理文档图像、识别产品信息或解答旅游照片中的历史知识。

当然,像所有技术一样,Visual-ARFT也面临一些局限性。研究团队指出,当前实现主要集中在搜索和编码两种工具上,未来可以扩展到更多类型的工具使用。另外,MAT基准测试集虽然多样化,但规模相对较小,这可能限制对模型能力的全面评估。

展望未来,Visual-ARFT为构建更强大的多模态智能体指明了方向。随着技术的发展,我们可能会看到更多能够自主规划、推理和使用各种工具的AI系统出现,帮助人们解决更复杂的问题。就像研究团队所说的那样,Visual-ARFT提供了一条"构建强大且可泛化的多模态智能体的有希望的路径"。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-