微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 推理引导+强化学习:清华&阿里巴巴推出UniVG-R1,让AI读懂复杂视觉指令的全新突破

推理引导+强化学习:清华&阿里巴巴推出UniVG-R1,让AI读懂复杂视觉指令的全新突破

2025-05-27 13:28
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-27 13:28 科技行者

在我们使用智能助手时,你是否曾经希望它能准确理解"找出第二张图片中能处理第一张图片中物品的家具"这样的复杂指令?或者"找出能保护人安全着陆的东西"?这类需要跨图片理解和推理的任务对AI来说一直是个大挑战。2025年5月,来自清华大学深圳国际研究生院和阿里巴巴AMAP团队的研究者们在arXiv上发表了一篇题为"UniVG-R1: Reasoning Guided Universal Visual Grounding with Reinforcement Learning"的论文,提出了一种全新的解决方案。

为什么我们需要更智能的视觉定位技术?

想象一下,你正在和朋友一起看照片,朋友说:"看看第一张照片中那个戴眼镜的男孩,在第二张照片中找找他在哪里。"这对我们人类来说很简单,但对AI而言却是个巨大挑战。传统的视觉定位(Visual Grounding)技术主要处理单张图片中的简单指令,如"找出蓝色的衬衫",但在现实应用中,我们常常需要AI理解跨越多张图片的复杂隐含指令。

清华和阿里巴巴的研究团队将这种更实用、更复杂的任务称为"通用视觉定位"(Universal Visual Grounding)。它不仅要求AI能够在图像中定位物体,还要能够理解复杂的语言指令,甚至进行跨图像的推理。

UniVG-R1:融合推理与强化学习的突破性方案

研究团队提出的UniVG-R1模型就像是给AI装上了一个特殊的"思考大脑"。这个模型基于多模态大语言模型(MLLM),但关键在于它通过两个创新手段大幅增强了模型的推理能力:

首先,研究团队构建了一个高质量的"思维链"(Chain-of-Thought,简称CoT)数据集。这就像是给AI提供了详细的推理路径指南,告诉它"应该怎么一步步思考"。具体来说,他们收集了90,000个样本,每个样本都包含详细的推理过程,指导模型如何从问题到答案一步步推理。

其次,他们采用了一种名为"强化学习"(Reinforcement Learning)的技术。这就像是给AI设置了一个奖惩机制——当AI找到正确的推理路径时给予奖励,引导它逐渐学会更好的推理方式。研究者们特别使用了一种称为"基于规则的强化学习"(rule-based reinforcement learning)的方法,结合"冷启动数据"(cold-start data)来增强模型的推理能力。

模型训练:两阶段策略让AI学会"像人一样思考"

UniVG-R1的训练过程分为两个阶段,就像是先教会孩子基本知识,再教他如何活学活用。

在第一阶段,研究团队使用构建的CoT数据集进行监督微调(Supervised Fine-tuning)。这些数据包含详细的推理链,就像是给AI提供了"解题思路",引导它学习如何正确推理。这个阶段主要是让模型学会基本的推理路径。

在第二阶段,研究者们采用了群组相对策略优化(Group Relative Policy Optimization,简称GRPO)算法进行强化学习。这个阶段就像是让AI"自己练习"——模型会生成多个可能的推理路径,然后通过一个基于IoU(交并比)的验证奖励函数来评估哪些路径更好,从而不断调整自己的推理策略。

困难感知权重调整:让AI更关注难题

研究团队还发现了GRPO算法中存在一个"困难偏差"问题:随着训练的进行,容易的样本比例会增加,而困难样本的比例会减少。这就像是学习中只关注简单题目而忽略了难题,导致学习效率下降。

为了解决这个问题,研究者们提出了一种"困难感知权重调整"(difficulty-aware weight adjustment)策略。这个策略会根据样本的困难程度动态调整权重,给予更难的样本更大的权重,就像是督促学生多花时间在难题上。具体来说,他们尝试了几种不同的函数来量化样本的困难程度,最终发现使用exp(1-mIoU)函数效果最佳。

实验结果:性能大幅超越现有技术

UniVG-R1在多项基准测试中都取得了出色的表现。在MIG-Bench基准测试上,UniVG-R1比之前最先进的Migician模型平均提高了9.1%的性能。而且UniVG-R1在10个子任务上都取得了最佳结果,这包括静态差异检测、相似性识别、共同物体识别等多种任务类型。

更令人印象深刻的是,UniVG-R1展现了强大的泛化能力。在四个图像和视频推理定位基准测试上的零样本性能平均提高了23.4%。具体来说: - 在LISA-Grounding上提高了27.8% - 在LLMSeg-Grounding上提高了15.9% - 在ReVOS-Grounding上提高了20.3% - 在ReasonVOS上提高了25.3%

这些结果表明,UniVG-R1不仅在特定任务上表现出色,还能很好地迁移到未见过的新任务上,展现了真正的"通用"能力。

模型规模与效率:小样本也能有大提升

值得一提的是,UniVG-R1在训练数据效率方面也有显著优势。Migician模型使用了约120万个样本进行训练,而UniVG-R1仅使用了10万个样本(约为Migician的8.3%),却取得了更好的性能。这表明推理引导和强化学习的结合可以大幅提高模型的学习效率。

研究团队还在不同规模的模型上进行了实验。他们发现即使在较小的Qwen2-VL-2B模型上,强化学习也能带来显著的性能提升。这表明该方法对不同规模的模型都有效,具有广泛的适用性。

实际应用:让AI真正理解我们的意图

UniVG-R1的出现为人机交互开辟了新的可能性。想象一下,当你对智能助手说:"看看第一张照片中那个有创意的女孩,第二张照片中哪个物品最能反映她在第一张照片中展示的特点?"UniVG-R1能够分析女孩手上和脸上的颜料,推断出她具有创造性特点,然后在第二张图片中找到最相关的物品——墙上的绘画,因为这与女孩的创造性特征最相符。

这种能力可以应用于多种场景: - 智能购物助手:根据用户提供的多张参考图片推荐合适的商品 - 智能搜索引擎:理解复杂的多图像查询意图 - 智能安防系统:根据复杂指令在多个摄像头画面中定位目标 - 自动驾驶:理解复杂的道路场景和指令

未来展望:走向更通用的人工智能

UniVG-R1的研究成果表明,结合推理引导和强化学习是增强AI复杂理解能力的有效途径。这为构建更通用、更智能的AI系统提供了新的方向。

未来的研究可能会探索如何将这种推理能力扩展到更多领域,如视频理解、3D场景理解等。同时,进一步优化强化学习算法,减少训练资源需求,也是一个重要的研究方向。

这项研究让我们离真正理解人类复杂意图的AI又近了一步。正如研究团队所展示的,当我们让AI学会"像人类一样思考"时,它就能更好地理解和满足我们的需求。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。

  • 微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。

  • 用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。

  • 播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-