微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 VisTA:一种会学习选择视觉工具的人工智能,仿佛给视觉AI配了个聪明助手

VisTA:一种会学习选择视觉工具的人工智能,仿佛给视觉AI配了个聪明助手

2025-05-30 16:21
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-30 16:21 科技行者

近日,来自威斯康星大学麦迪逊分校和微软的研究团队共同发布了一项突破性研究——VisualToolAgent(简称VisTA)。这项由Zeyi Huang、Yuyang Ji、Anirudh Sundara Rajan、Zefan Cai、Wen Xiao、Junjie Hu和Yong Jae Lee领导的研究发表于2025年5月,论文编号为arXiv:2505.20289v1。有兴趣深入了解的读者可以通过项目网站https://oodbag.github.io/vista_web/获取更多信息。

想象一下,你有一个聪明的助手,当你需要解决各种视觉问题时,它能够自动为你挑选最合适的工具。这正是VisTA框架要实现的目标。不同于以往的方法,VisTA不需要人工指导就能自己"摸索"出哪种工具最适合解决特定问题,就像一个孩子通过尝试错误逐渐学会了使用不同的玩具一样。

在人工智能世界中,大型语言模型(如ChatGPT)和视觉语言模型(能够理解图像的AI)虽然功能强大,但它们都受限于自身固定的结构和预先存储的知识。为了突破这些限制,研究人员开始尝试给这些模型"配备工具箱"——让它们能够调用外部工具来增强自己的能力,比如使用Python解释器进行自我验证,从而提高复杂任务的推理性能。

然而,目前让AI使用工具的方法存在明显局限。它们要么依赖大规模的人工监督训练来教AI如何使用工具,要么完全依靠AI自身的世界知识来进行工具选择。这些方法通常需要提供工具演示或详细描述来指导AI使用,缺乏根据具体查询特点自动探索、选择或适应工具选择的能力。这个问题在现实应用中尤为明显,因为我们通常会有多种功能相似但性能各异的工具可供选择。

VisTA采用了完全不同的思路:通过强化学习(RL)让AI自己探索和学习哪些工具最有效。就像人类通过反复尝试逐渐掌握工具使用技巧一样,VisTA能够根据实际使用效果而不是预设规则来评估和选择最合适的工具。通过与环境的反复互动,VisTA学习到适应性策略,能够根据具体查询动态调整工具组合,甚至可能发现那些从工具描述中不那么明显的工具使用模式。

研究团队在视觉推理任务上专注测试了VisTA。这个框架由两部分组成:一个通过强化学习训练的自主代理(agent),负责为固定的视觉语言模型动态选择最佳工具,以解决复杂的视觉推理问题。有趣的是,在强化学习训练过程中,视觉语言模型本身保持不变,这意味着代理学习到的选择策略可以应用到不同的推理模型上,无需重新训练,这对于灵活部署至关重要。

研究团队使用了群体相对策略优化(GRPO)算法,让代理能够完全从零开始自主发现有效的工具选择路径,而无需明确的推理示例。如果你想看看代理在实际中如何执行推理和选择工具,可以查看论文中的图6和图7的示例。

研究团队在ChartQA、Geometry3K和BlindTest等基准测试上评估了他们的方法。ChartQA是一个具有挑战性的视觉推理基准,要求模型解释数值数据、文本标签和复杂的视觉结构,比如精确估计图表中的柱状高度。Geometry3K则评估细粒度的图表理解和逻辑推理能力,要求模型准确解析视觉元素(如图形、标签)并将它们与文本问题条件对齐,以进行基于数学的推理。

实验结果表明,VisTA的强化学习方法显著优于训练免费的方法。在测试分布外(OoD)变体上,性能差距进一步扩大。这证明了VisTA在新场景中具有更强的泛化能力,并能在具有挑战性的视觉条件下保持良好的性能。

现在,让我们深入了解VisTA的具体工作原理和它带来的突破性贡献。

一、为什么需要一个会选择工具的AI代理?

想象一下你是一名木匠,面对一个复杂的家具制作任务。你的工具箱里有各种工具:锤子、螺丝刀、电钻、砂纸等。根据不同的任务阶段,你会选择不同的工具。你不会用锤子来拧螺丝,也不会用螺丝刀来砂光木材。这种选择工具的能力看似简单,却是高效完成任务的关键。

在AI世界中,情况类似。现代视觉语言模型(VLM)虽然功能强大,但当面对复杂的视觉推理任务时,它们也需要正确的"工具"来辅助。例如,在分析图表时,一个AI可能需要一个能将图表转换为表格的工具,或者一个能提取图表几何元素的工具。不同的问题可能需要不同的工具组合才能最有效地解决。

传统方法通常采用两种策略:一种是通过大量人工监督来微调模型,教它如何使用工具;另一种是直接依靠模型内置的世界知识,以训练免费的方式来选择工具。这两种方法都存在明显缺陷:它们缺乏主动工具探索能力,通常假设工具多样性有限,而且微调方法还需要大量的人工监督。

更重要的是,在现实世界中,工具的性能可能与其描述不完全一致。某些工具可能有未记录的能力或者在某些情境下表现不稳定。如果没有一种机制让AI通过实际体验来学习,系统就无法确定最佳工具选择,也无法发现那些可能通过协作部署出现的协同工具组合。

VisTA框架正是为解决这一问题而设计的。它不依赖预定义的规则或大量的人工标注,而是让AI代理通过反复尝试和错误来学习哪些工具在哪些情境下最有效。就像一个孩子通过玩耍学习不同玩具的用途一样,VisTA通过强化学习来探索和适应,逐渐掌握工具选择的智慧。

二、VisTA如何工作?解析强化学习框架

要理解VisTA的工作原理,可以把它想象成一个正在学习如何为不同料理选择合适厨具的学徒厨师。这个学徒最初对哪种厨具最适合哪种料理一无所知,但通过反复尝试和获得反馈(比如食物是否烹饪成功),逐渐学会了在看到特定食材和菜谱后选择最合适的厨具组合。

在VisTA框架中,整个系统由两个主要组件组成:一个代理(agent)和一个推理器(reasoner)。代理负责选择工具,就像我们的学徒厨师;推理器则负责使用这些工具来解决实际问题,就像真正的厨师操作厨具烹饪食物。

当系统收到一个视觉问题(如一张图表和一个相关问题)时,代理首先观察这个问题,然后从可用工具库中选择一系列工具。这些工具可能包括将图表转换为表格的工具、提取图表几何元素的工具、或者生成图表描述的工具。每个选定的工具都会应用于输入图像,生成相应的输出。

这些工具输出与原始问题一起被送入推理器,推理器是一个固定的视觉语言模型,它使用这些增强的输入来生成最终答案。整个过程就像厨师(推理器)使用学徒(代理)选择的厨具来烹饪一道特定的菜肴。

VisTA的核心创新在于它如何训练代理选择工具。研究团队使用了群体相对策略优化(GRPO)算法,这是一种强化学习方法。在训练过程中,系统会评估代理选择的工具如何影响推理器的性能,并给予相应的奖励或惩罚。

具体来说,训练过程是这样的:

首先,代理观察一个问题,并根据当前策略选择几组候选工具。然后,推理器使用这些工具处理问题并生成答案。系统同时也让推理器仅使用原始问题(不使用任何工具)来生成答案,作为基准比较。

根据推理器的表现,系统计算每组工具的奖励。如果使用工具后推理器能够正确回答问题,而不使用工具则回答错误,代理会获得正向奖励(+1);如果使用工具反而导致原本能正确回答的问题回答错误,代理会受到惩罚(-0.5);如果使用工具与不使用工具的结果一样(都正确或都错误),代理会获得中性反馈。

通过这种方式,代理逐渐学习到哪些工具对哪类问题最有帮助,形成一种自适应的工具选择策略。这就像我们的学徒厨师通过反复尝试,最终学会了炒菜时用炒锅而不是汤锅,切菜时用菜刀而不是勺子。

三、工具选择的智慧:实验结果展示

如果把VisTA比作一个聪明的助手,那么这个助手到底有多聪明?它真的能为不同的视觉问题选择合适的工具吗?研究团队通过一系列实验来验证VisTA的有效性。

首先,团队在ChartQA数据集上测试了VisTA。这个数据集包含各种图表和相关问题,要求AI理解图表中的数据关系和视觉元素。在标准测试集上,VisTA使用QwenVL-7B作为代理和推理器,实现了79.4%的准确率,比最佳训练免费基线(76.4%)提高了3个百分点。

更令人印象深刻的是,当研究人员测试模型在分布外(OoD)样本上的表现时,VisTA的优势变得更加明显。在这些样本中,图表的文本标签被移除,迫使模型更多地依赖视觉推理而非简单的文本理解。在这种情况下,VisTA达到了73.2%的准确率,比最佳基线(66.8%)提高了6.4个百分点。这表明VisTA能够更好地进行纯视觉推理,而不仅仅依赖文本线索。

在Geometry3K基准测试上,VisTA同样表现出色。这个数据集包含几何问题和相关图表,要求AI理解几何关系并进行数学推理。VisTA实现了55.6%的准确率,超过了最佳训练免费基线(54.0%)。

一个特别有趣的发现是,VisTA学习到的工具选择策略可以无缝迁移到更强大的推理模型上。研究团队将使用QwenVL-7B训练的代理与GPT-4o推理器配对,在不进行任何重新训练的情况下,在ChartQA上实现了88.9%的准确率,在ChartQA-OoD上实现了76.8%的准确率,比最佳GPT-4o基线分别提高了3.5个百分点。这证明了VisTA框架的灵活性和通用性。

研究团队还分析了VisTA如何选择工具。他们发现,在ChartQA任务中,VisTA强烈偏好图表到表格转换工具(Tool 1和Tool 2),这些工具在单独测试中表现最好。相比之下,表现较差的工具(如Tool 3和Tool 6)很少被选择。这表明VisTA确实学会了根据工具的实际性能而非预设规则来进行选择。

随着训练的进行,VisTA选择工具的策略与工具个体性能之间的相关性逐渐增强,从接近零上升到0.8以上。这表明代理正在逐渐调整其策略,更多地选择那些对推理器准确性贡献更大的工具。

四、VisTA的实际应用案例

为了让我们更直观地理解VisTA如何工作,让我们看两个具体的应用案例。

第一个案例是几何问题解决。假设AI面对一个问题:"求三角形ABC的AB边长,已知ABC是等腰三角形,且AB=BC。"伴随问题的是一个三角形图,其中标注了一些角度和边长关系。

在这种情况下,VisTA的代理会选择Inter-GPS工具,这是一个能够将几何图形中的点、线和关系转换为形式化语言的工具。通过这个工具,系统能够准确提取出图中的关键信息:点A、B、C的位置,线段CB、CA、BA的长度关系,以及各线段之间的数学关系(如某线段长为2x-7,另一线段长为4x-21等)。

有了这些形式化的关系描述,推理器(QwenVL-7B或GPT-4o)就能够应用数学知识来解决问题。它首先识别出这是一个等腰三角形,其中AB=BC,然后利用图中提供的边长表达式(2x-7和4x-21)建立方程,解出x值,最终计算出AB的长度为7。

第二个案例是图表理解。假设问题是:"黑色条形值是否从左到右递增排序?"伴随问题的是一个多年数据的堆叠柱状图,展示了农业、工业和服务业的劳动力分布。

在这种情况下,VisTA的代理选择了两个互补的工具:一个图表到表格转换工具,提取出图表中的数值数据;一个图表到SVG转换工具,捕获颜色信息。通过表格,系统能够了解每年每个行业的百分比分布;通过SVG,系统能够识别出哪些条形代表"黑色值"(在这个例子中是工业部分)。

结合这两种信息,推理器能够判断黑色部分(工业)的比例在各年份中是否呈递增趋势。在这个例子中,工业部分的比例没有明显的递增趋势,而是相对稳定,因此系统回答"否"。

这些案例展示了VisTA如何通过选择适当的工具来分解复杂的视觉推理任务,使AI能够更有效地解决问题。

五、VisTA与现有方法的比较

把VisTA比作一个懂得选择工具的聪明助手,那么市场上已有的其他"助手"是怎样的呢?让我们做个比较。

传统的训练免费方法就像是按照说明书使用工具的助手。这种助手严格按照预先提供的工具描述或示例来选择工具,没有自己的判断能力。如果说明书不完整或者某些工具在特定情境下表现不如预期,这种助手就会束手无策。

微调方法则像是经过集中培训的助手。通过大量示范和指导,这种助手学会了如何使用特定工具。但这种培训成本高昂,而且助手只会按照培训中学到的模式行动,缺乏灵活性和适应性。

相比之下,VisTA就像是一个通过实践学习的智能助手。它不依赖详细的说明书或大量的人工指导,而是通过反复尝试和错误来学习哪些工具在哪些情况下最有效。这种学习方式使VisTA能够发现那些可能在工具描述中不明显的使用模式,并根据实际效果而非预设规则来选择工具。

研究团队还将VisTA与另一种基于强化学习的方法进行了比较,后者直接训练推理器生成推理过程,而不使用工具。在ChartQA上,VisTA比这种方法高出1.9个百分点,在ChartQA-OoD上高出8.9个百分点。这表明工具增强的推理比直接模型优化提供了更大的性能提升。

在与最先进的视觉语言模型的比较中,VisTA在Geometry3K上取得了最佳性能,远超所有先前的方法。在ChartQA上,VisTA排名第二,仅略低于Claude-3.5 Sonnet(90.8% vs 88.9%),但超过了其他强大的基线,如Molmo-72B、Gemini 1.5 Pro和InternVL2-Llama-3。这证明了VisTA在复杂图表推理任务上的高效性,以及在几何基准测试上的卓越能力。

六、深入理解VisTA的工具选择策略

想象一下你走进一家有十种不同品牌榨汁机的商店。每种榨汁机都有不同的特点和适用场景:有些擅长处理硬水果,有些擅长处理软水果,有些速度快但噪音大,有些慢但榨汁更彻底。作为一个聪明的消费者,你会希望尝试不同的榨汁机,找出哪种最适合你的需求。

VisTA的工具选择过程就像这种尝试和比较。为了了解VisTA是如何选择工具的,研究团队进行了详细分析。

首先,他们比较了单个工具的性能。在ChartQA基准测试中,他们将每个工具(T0-T8)单独与原始输入一起提供给固定的推理器,并记录其准确率。他们还计算了一个"伪上界"(88.0%),即如果任何单个工具能使推理器产生正确答案,就认为该查询是正确的。这个上界代表了完美单工具选择可能达到的极限。

结果显示,虽然某些工具(如T2,78.3%和T1,78.0%)比不使用工具的基线(76.4%)表现更好,但与伪上界(88.0%)之间仍有很大差距。这表明没有任何单一工具能在所有查询上表现最佳。不同的工具似乎对数据的不同子集最为有效。

理想情况下,一个训练良好的策略应该能学会为每个特定查询选择最有效的工具,实现超越任何静态工具选择的性能。VisTA达到了79.4%的准确率,超过了所有单个工具。这表明策略学会了根据查询特定的上下文调整其选择,而不是固定使用某一工具。

研究团队还跟踪了工具使用频率与单个工具性能之间的相关性。每10次迭代,他们计算每个工具的使用计数与其独立准确率之间的皮尔逊相关系数。尽管最初有一些波动,但随着训练的进行,相关性明显上升,从接近零上升到0.8以上。这表明代理正在逐渐将其工具选择策略与每个工具的相对效用对齐,倾向于选择那些对推理器准确性贡献更大的工具。

在测试集上的工具选择分布分析也证实了这一点。VisTA明显偏好Tool 1和Tool 2(都是图表到表格工具),这些工具在单独性能测试中表现最佳。相比之下,表现较差的工具如Tool 3(图表到SVG)和Tool 6(描述模块)被选择的频率要低得多。

这种基于经验反馈的学习能力是VisTA区别于训练免费方法的关键优势。训练免费的QwenVL-7B表现出更均衡的选择模式,接近正态分布,表明它缺乏强烈的偏好,不能一致地优先选择最有效的工具。GPT-4o则倾向于每个查询选择更多工具,很少选择不使用工具,并在更广泛的工具集上分布其选择。然而,这种更广泛的使用仍然缺乏与工具有效性的明确对齐,在选择频率和工具性能之间没有显示出强相关性。

七、VisTA的未来发展与潜在应用

把VisTA比作一个正在成长的智能助手,它目前已经展现出令人印象深刻的能力,但未来还有更广阔的发展空间。

首先,VisTA目前的框架使代理能够学习视觉工具选择,但它尚不能处理需要多个工具按特定顺序组合的情况。探索这种顺序工具组合能力代表了未来研究的一个有前途的方向。想象一下,就像一个熟练的厨师知道在烹饪过程中何时切菜、何时加热、何时调味一样,VisTA未来可能学会根据任务的不同阶段选择和组合不同的工具。

其次,VisTA目前依赖于一组固定的、手动策划的工具,这限制了其灵活性和适应性。开发自动发现和集成新工具的方法将大大提高VisTA的可扩展性。就像一个好奇的助手不断寻找新工具来扩展其能力一样,未来的VisTA可能能够自动识别有用的新工具并将其纳入其工具库。

在实际应用方面,VisTA的框架可以应用于多种视觉理解任务。除了图表理解和几何问题解决外,它还可以扩展到医学影像分析、卫星图像解释、自动驾驶场景理解等领域。在这些领域,不同的工具(如边缘检测器、分割模型、物体识别器等)可能对不同类型的图像和查询有不同的效用。VisTA的自适应工具选择能力可以帮助AI系统在这些复杂场景中做出更准确的判断。

此外,VisTA的强化学习框架可以扩展到其他模态,如音频、文本或多模态输入。这将使AI系统能够根据不同类型的输入数据动态选择最合适的工具,进一步提高其灵活性和泛化能力。

当然,随着AI系统越来越多地被用于高风险领域,确保这些系统的可靠性、透明度和适当的人类监督变得至关重要。虽然VisTA目前专注于相对低风险的设置,如图表理解和几何问题,但在医疗保健等高风险领域部署类似方法可能会因工具使用不当而引入微妙但重大的错误。未来的研究需要关注如何在保持系统灵活性和自主性的同时,确保其决策过程的可解释性和可靠性。

总的来说,VisTA为AI系统如何动态学习和适应工具使用开辟了一条新路径,未来有望在各种应用场景中实现更灵活、更强大的视觉推理系统。

归根结底,VisTA就像是给AI配备了一个会学习的助手,这个助手不需要详细的说明书,也不需要大量的人工指导,而是通过实践和反馈逐渐掌握了为不同任务选择最合适工具的技巧。它打破了传统方法的局限,实现了更灵活、更自主的工具选择,从而提高了AI在复杂视觉推理任务上的表现。

尽管VisTA在图表理解和几何问题解决上已经展现出明显优势,但它的潜力远不止于此。随着研究的深入,我们可以期待未来的VisTA能够处理更复杂的工具组合,自动发现新工具,并应用于更广泛的领域。

对于普通人来说,这项研究意味着未来的AI助手将更加智能和灵活,能够根据具体任务主动选择最合适的工具,就像一个经验丰富的助手那样,为我们提供更精准、更有价值的帮助。无论是帮助学生解决复杂的数学问题,还是辅助专业人士分析复杂的数据可视化,这种能够自主学习工具使用的AI都将发挥越来越重要的作用。

如果你对这项研究感兴趣,可以通过论文编号arXiv:2505.20289v1查阅原始论文,或访问项目网站https://oodbag.github.io/vista_web/获取更多信息。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。

  • 微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。

  • 用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。

  • 播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-