微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 主动感知:浙江大学团队ACTIVE-O3让多模态大语言模型"学会看哪里"

主动感知:浙江大学团队ACTIVE-O3让多模态大语言模型"学会看哪里"

2025-05-31 10:05
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-31 10:05 科技行者

在人工智能和计算机视觉领域,一项突破性的研究成果正引起广泛关注。2025年5月,来自浙江大学和蚂蚁集团的研究团队在arXiv上发布了题为"ACTIVE-O3: Empowering Multimodal Large Language Models with Active Perception via GRPO"的研究论文(arXiv:2505.21457v1)。这项由浙江大学的申春华教授领衔,朱沐之、钟浩、赵灿宇等人共同完成的研究,为多模态大语言模型赋予了类似人类的"主动感知"能力,让AI系统能够像人类一样主动决定"看哪里"和"怎么看"。

一、什么是主动感知,为什么它如此重要?

想象一下,你走进一个拥挤的集市寻找一个特定的水果摊位。你不会机械地从左到右扫视每一个角落,而是会快速扫描环境,锁定可能的区域,然后逐步缩小搜索范围。这种能力在认知科学中被称为"主动感知"(Active Perception)或"主动视觉"(Active Vision)—— 即能够主动选择在哪里看、如何看,以便高效收集与任务相关的信息。

主动感知是人类和高级智能体高效感知和决策的核心组成部分。对于人类来说,主动感知使我们能够在杂乱的场景中专注于相关细节,或动态调整视角以更好地理解模糊的物体。类似地,像自主机器人这样的智能体也必须做出关于在哪里看和如何看的智能选择,才能在现实世界的任务中取得成功。

然而,尽管多模态大语言模型(MLLMs)在语言和视觉理解方面取得了令人印象深刻的进步,当前的MLLMs往往是视觉输入的被动消费者,依赖静态、固定的环境视图。这与主动感知所特有的动态信息搜索行为形成鲜明对比。

GPT-o3模型最近提出的放大搜索策略可以被视为向主动感知迈出的第一步,但它仍然受到低效区域提议和目标定位精度不高的限制,特别是在密集或细粒度场景中。更重要的是,目前仍然缺乏系统的框架和评估协议来研究和发展MLLMs中的主动感知能力。

二、ACTIVE-O3:让AI学会"主动看"的创新方法

浙江大学和蚂蚁集团的研究团队提出了ACTIVE-O3,一种基于强化学习的训练框架,专门设计用于赋予MLLM主动感知技能。ACTIVE-O3建立在群体相对策略优化(Group Relative Policy Optimization, GRPO)之上,提供了MLLM主动感知任务的正式定义,并构建了一个全面的基准套件,用于评估各种任务的性能。

那么,ACTIVE-O3是如何工作的呢?想象一下一个侦探在调查现场寻找线索。ACTIVE-O3就像是训练这位侦探知道应该关注房间里的哪些区域,而不是盲目地搜索每一个角落。

具体来说,ACTIVE-O3有两个主要组件:

首先是感知模块(Sensing Module),负责决定在哪里看。给定一个图像和指令,这个模块会生成几个可能包含重要信息的候选区域。就像侦探在案发现场快速扫描并标记可能藏有线索的几个重要区域。

其次是任务模块(Task Module),负责实际执行任务。一旦确定了关注区域,这个模块会专注于这些区域来完成具体任务,比如识别物体或回答问题。就像侦探仔细检查那些标记的区域,从中发现关键证据。

这两个模块合作实现了一个两阶段策略:先决定在哪里看(感知),再决定如何行动(任务执行)。整个系统使用结构化指令提示与双重奖励设计相结合——既有任务感知的反馈,也有启发式反馈——指导模型生成多样化、可解释且对任务有效的区域提议。

三、ACTIVE-O3的技术实现:AI如何学会"聪明地看"

要理解ACTIVE-O3的技术实现,我们可以把它想象成训练一个摄影师知道在哪里放置相机以捕捉最佳画面。这个过程涉及几个关键环节:

首先是问题的数学建模。研究团队将主动感知问题建模为一个两模块系统的协调:任务模型MA决定如何与环境交互完成外部任务,而感知模型MO决定如何控制感知参数以改善观察质量。这两个模型共同工作,最大化任务成功率同时最小化感知成本。

为了简化实验和评估,研究团队将问题专门化为二维视觉场景:在静态图像上进行主动感知。在这种设置下,环境状态是一张高分辨率静态图像,感知动作指定图像中的一个矩形区域(边界框),观察通过从图像中裁剪该区域并调整大小得到。

ACTIVE-O3的核心创新在于其基于GRPO的强化学习训练框架。传统的监督学习方法难以为感知动作提供明确的标签或最优目标,因为一个感知动作的效用必须通过其对下游任务性能的影响来判断。ACTIVE-O3通过强化学习方法解决了这一挑战,使模型能够从任务级别的奖励信号中学习。

具体来说,ACTIVE-O3使用了双形式奖励设计:

启发式奖励评估单个MLLM响应,基于与任务无关的标准,促进可解释和空间上有意义的区域提议。这包括格式有效性(响应必须符合有效的结构化格式)、非重叠提议(鼓励空间多样性)、面积范围约束(每个边界框必须在合理的大小范围内)以及基于覆盖的奖励(评估预测区域与任务相关区域的对齐程度)。

任务感知奖励则基于所选区域对下游任务性能的贡献来评估质量。这需要额外运行任务模型,但提供了精确的任务对齐反馈,对于微调感知策略以达到最佳端到端任务性能至关重要。

最终,ACTIVE-O3通过结合这两种类型的奖励,训练出既能理解任务目标又能生成空间上合理的观察策略的模型。

四、验证ACTIVE-O3:多种场景下的测试与结果

研究团队在多种具有挑战性的视觉任务上评估了ACTIVE-O3的性能,包括开放世界场景和特定领域应用。

在开放世界小型/密集物体定位方面,团队使用了LVIS数据集,该数据集以其丰富的长尾词汇和大量小型、密集打包的物体而闻名。结果显示,ACTIVE-O3在LVISsmall和LVISdense测试集上显著优于Qwen-VL2.5和其CoT变体,在小物体检测指标(APs/ARs)上分别提高了+1.0/+2.8和+2.7/+3.5。当与GDINO(一种专业的物体检测模型)配对时,ACTIVE-O3+GDINO在APs和ARs上分别达到7.0和7.9,超过单独使用GDINO的成绩。

在特定领域的小物体检测任务中,研究团队采用了SODA基准测试,该测试包括两个大规模数据集:SODA-D(自动驾驶)和SODA-A(航空影像)。结果令人印象深刻:ACTIVE-O3在SODA-A上实现了9.2/10.4的APs/ARs,在SODA-D上达到了15.1/22.0。尽管航空场景中的领域差距更大,ACTIVE-O3仍然比Qwen2.5-VL高出+8.5 APs,表明其具有强大的泛化能力。SODA-D上的性能甚至更高,这表明我们学习的感知策略MO能够有效地跨不同视觉领域迁移。

在细粒度交互式分割方面,研究团队使用ThinObjects数据集进行了测试。实验比较了不同放大预算下QWEN2.5-VL-COT和ACTIVE-O3的性能。虽然两者在初始时具有相同的平均交叉并比(mIoU),但随着预算增加,QWEN2.5-VL-COT的性能下降到0.561(预算为3时),这是由于它倾向于放大不正确的区域,在后续步骤中累积错误。相比之下,ACTIVE-O3逐步提高到0.863,表明其强化学习策略能够有效地学习识别和纠正错误,通过有选择地放大具有挑战性的区域。

五、零样本推理:ACTIVE-O3的意外能力

一个特别有趣的发现是,尽管ACTIVE-O3并未在推理或问答数据上进行专门训练,它在细粒度理解任务上展示了显著的零样本泛化和推理能力,例如V*基准测试。

在一个示例中,当被问到"告诉我交通灯上的数字是多少"时,Qwen2.5 VL无法正确回答,而是引用了不相关的文本。相比之下,ACTIVE-O3成功定位并放大了交通灯上的精确区域,通过有效的空间定位准确回答了10。

在另一个例子中,针对"警车上的号码是多少"的问题,基线模型(Qwen2.5 VL)由于分辨率有限和推理能力不足,无法定位相关的视觉证据。而ACTIVE-O3通过上下文推理和放大选择,成功定位到警车上的数字102,展示了强大的空间推理和细粒度视觉理解能力。

这些结果表明,通过在检测任务上学习有效的推理和搜索策略,ACTIVE-O3能够很好地泛化到以前未见过的任务,这对于构建更通用、更可靠的视觉语言系统具有重要意义。

六、研究的局限性与未来方向

尽管ACTIVE-O3取得了令人印象深刻的成果,研究团队也坦诚地指出了几个局限性,这些也为未来的研究指明了方向:

首先,领域差距仍然是一个挑战,特别是对于像遥感这样的专业领域。当前的MLLMs可能难以准确识别特定领域的类别(如风力发电机、储存罐),这可能导致由于任务模型的能力有限而导致任务感知奖励估计不准确。

其次,当前的行动空间受到限制。ACTIVE-O3框架每一步只允许放大三个目标区域。然而,某些应用可能需要更灵活的控制,如选择更多区域或引入旋转等转换——这对OCR等任务特别相关,尽管对定位等任务不那么关键。

第三,感知模型的输入仅限于当前观察。在实践中,引入记忆机制来存储过去的行动和观察可能使决策更加明智。这种扩展可能支持更复杂的策略,如轨迹级规划、长期搜索和回滚操作。

解决这些限制可能进一步提高所提出感知策略在更复杂或专业场景中的适应性、泛化性和决策质量。

七、研究的意义与影响

ACTIVE-O3的研究意义远超过其直接的技术贡献。这项工作为MLLMs中的主动感知铺平了道路,这可能对人工智能系统如何与世界交互产生深远影响。

从实际应用角度看,这项研究可以显著改善人工智能系统在诸多领域的性能,包括:

自动驾驶:车辆需要快速识别和关注路上的小物体(如行人、交通标志和障碍物)。 医学诊断:医疗AI系统需要定位X射线或MRI扫描中的微小但关键的特征。 卫星图像分析:遥感系统需要在大型航空图像中识别特定目标或变化。 搜索和救援机器人:需要在复杂环境中定位可能的生存者或关键物品。

从理论角度看,ACTIVE-O3代表了向更类人AI系统迈出的重要一步。人类感知的一个定义特征是其主动性和目标导向性——我们不仅仅是被动地接收信息,而是积极地寻找相关信息以完成任务。通过赋予MLLMs类似的能力,我们正在缩小人工智能和人类认知之间的差距。

最重要的是,这项研究提供了一个简单的代码库和评估协议,以促进未来在主动感知MLLM方面的研究。研究团队已经在GitHub上开源了他们的代码(https://github.com/aim-uofa/Active-o3),这将使更多研究人员能够在这一令人兴奋的领域开展工作。

总的来说,ACTIVE-O3代表了AI视觉能力的一个重要飞跃——从被动观察者到主动探索者。随着这项技术的发展和完善,我们可以期待更加智能、高效和自主的AI系统,能够像人类一样主动地与视觉世界互动。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。

  • 微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。

  • 用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。

  • 播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-