微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 AI也会"看图说话"了!上海交大团队让机器视觉推理能力提升12%

AI也会"看图说话"了!上海交大团队让机器视觉推理能力提升12%

2025-07-16 09:16
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-16 09:16 科技行者

这项由上海交通大学廖振毅、邓志杰教授团队与OPPO人工智能中心谢庆松、张艳好等研究人员共同完成的研究,发表于2025年4月的arXiv预印本平台(论文编号:arXiv:2504.00883v2),有兴趣深入了解的读者可以通过该编号在arXiv官网搜索获取完整论文。这项研究首次深入探索了如何让多模态大语言模型在视频场景中具备更好的空间推理能力。

当你看到一段室内视频时,能立刻判断出沙发离茶几有多远,或者从厨房到客厅该怎么走。这种看似简单的空间感知和推理能力,对人类来说轻而易举,但对AI来说却是个巨大挑战。现在,研究团队找到了一种全新的训练方法,让AI的"空间智商"有了显著提升。

故事要从一个令人意外的发现说起。研究团队发现,当他们尝试用"让我们一步步思考"这样的提示词来激发小型AI模型的推理能力时,效果反而变差了。这就像是一个刚学会走路的孩子,你让他慢慢走反而容易摔倒,但让他自然地走反而更稳当。这个发现促使研究团队探索新的训练方法。

受到DeepSeek-R1-Zero成功经验的启发,研究团队决定采用一种叫做GRPO的强化学习方法来训练AI模型。可以把这种方法理解为给AI设置了一个"奖励机制"——当AI答对空间推理题目时就给奖励,答错就扣分,通过不断的练习和反馈,让AI逐渐学会正确的空间推理。

为了给AI提供足够的练习素材,研究团队构建了一个包含超过10万个样本的视频问答数据集VSI-100k。这些数据来自ScanNet数据库,包含了高质量的室内场景3D扫描视频,就像给AI提供了无数个虚拟房间来练习空间感知。

通过这种训练方法,研究团队的vsGRPO-2B模型仅用120个GPU小时的训练,就在VSI基准测试中比基础模型提升了12.1%,甚至超越了GPT-4o的表现。而7B参数版本的性能更是达到了当前最好开源模型LLaVA-NeXT-Video-72B的水平,后者的参数量是前者的10倍多。

**一、AI的空间感知难题:从"看不懂"到"理解空间"**

人类天生具备强大的空间感知能力。当你走进一个陌生房间时,大脑会自动处理各种空间信息:哪个物体离你最近,房间有多大,从这里到那里该怎么走。这种能力让我们能够在三维世界中自如行动,但对AI来说,这却是一个复杂的挑战。

目前的多模态大语言模型虽然能够理解图像和视频内容,但在处理空间关系时常常表现不佳。就像一个近视眼的人摘掉眼镜后试图估算距离一样,AI经常无法准确判断物体之间的空间关系。这个问题在视频理解中尤为突出,因为视频中的空间信息更加复杂和动态。

研究团队选择专注于视频场景中的视觉空间智能,因为这是AI代理在物理世界中运作的基础能力。当AI需要在真实环境中导航、操作物体或与人类协作时,准确的空间理解变得至关重要。这就像是给AI装上了"空间眼镜",让它能够更好地理解周围的三维世界。

VSI-bench基准测试就是专门为评估这种空间理解能力而设计的。它包含两大类问题:需要数值答案的问题,比如物体计数、距离测量、尺寸评估;以及多选题,包括相对距离、相对方向、路线规划和出现顺序等任务。这些任务覆盖了日常生活中最常见的空间推理场景。

**二、意外发现:提示词反而让AI变"笨"了**

在正式开始训练之前,研究团队进行了一个看似简单的实验:测试不同的提示词策略是否能够激发现有模型的空间推理能力。结果却令人意外。

他们测试了三种不同的提示方式。第一种是"思考模式",提示AI"让我们一步步思考,然后用一个词或短语回答问题"。第二种是"观察模式",要求AI"请先仔细观察视频,然后用一个词或短语回答问题"。第三种是"朴素模式",直接要求AI"请用一个词或短语回答问题"。

令人惊讶的是,在Qwen2-VL-2B和7B模型上,最简单的朴素模式表现最好。尽管思考模式和观察模式产生了更长的回答,但最终答案的准确性反而下降了。这就像是让一个学生在考试时大声思考反而影响了他的判断力一样。

通过分析具体的输出案例,研究团队发现了问题所在。在一个关于物体距离的问题中,AI能够理解思考指令并确实进行了推理,但在推理过程中出现了错误。比如,AI可能会说"沙发在视频中不可见",而实际上沙发是存在的,这表明问题出在感知环节而不是推理环节。

这个发现揭示了一个重要问题:小到中等规模的AI模型无法通过增加推理步骤来提升空间理解能力。换句话说,这些模型还没有达到能够"用时间换准确性"的水平。这个发现为后续的训练策略指明了方向。

**三、训练数据的精心构建:给AI一个练习空间**

认识到现有模型的局限性后,研究团队决定构建专门的训练数据集。他们选择了ScanNet数据库作为基础,这是一个包含高质量室内场景3D扫描的数据集,每个场景都有详细的物体级3D标注信息。

基于这些3D信息,研究团队构建了六种类型的空间推理问题。物体计数任务要求AI统计房间中特定物体的数量,比如"房间里有几把椅子"。相对方向任务测试AI对方位的理解,比如"如果我站在书架旁面向淋浴间,自行车是在淋浴间的左边还是右边"。相对距离任务要求AI比较不同物体与参考物体的距离。

除此之外,还有物体尺寸评估、房间大小测量和绝对距离计算等任务。每种任务都对应着日常生活中的实际需求。当你重新布置房间时,你需要知道沙发的尺寸;当你寻找最近的充电插座时,你需要比较距离;当你描述室内布局时,你需要判断方向关系。

在构建过程中,研究团队特意简化了多选题的格式,去掉了选项标签,让AI直接说出答案而不是选择A、B、C、D。这种设计增强了模型识别实体对应关系的能力,而不是简单地进行符号匹配。这就像是让学生直接写出答案而不是猜选项,能够更好地检验真实理解水平。

最终,VSI-100k数据集包含了超过10万个样本,涵盖了空间推理的主要方面。值得注意的是,研究团队故意保留了路线规划和出现顺序两个任务作为测试,用来检验模型的泛化能力。

**四、GRPO训练法:给AI设计奖惩机制**

Group Relative Policy Optimization(GRPO)是这项研究的核心训练方法。可以把它理解为一种特殊的"奖惩教育法",通过奖励正确行为、惩罚错误行为来引导AI学习。

这种方法的工作原理类似于训练动物或教育孩子。当AI给出正确答案时,系统会给予奖励;当答案错误时,会给予相应的惩罚。通过反复的练习和反馈,AI逐渐学会了正确的空间推理模式。

具体来说,系统会为每个问题生成多个候选答案,然后根据预设的奖励函数对这些答案进行评分。奖励函数包含两个主要组成部分:格式奖励和准确性奖励。格式奖励确保AI的回答符合要求的格式,比如在指定的标签内给出答案。准确性奖励则基于答案与标准答案的匹配度来计算。

对于需要数值答案的问题,比如距离测量,研究团队设计了一个特殊的奖励函数。它计算预测值和真实值之间的绝对差异,然后除以两个值中的较小者。这种设计比简单的对错判断更加细致,能够给予接近正确答案的尝试一定的奖励。

在训练过程中,研究团队还尝试了三种不同的提示策略。思考模式要求AI将思考过程包含在特定标签中,然后给出最终答案。观察模式要求AI先分析视频内容,再给出答案。朴素模式则直接要求给出答案。

**五、关键发现:KL惩罚的重要性**

在训练过程中,研究团队发现了一个重要的技术细节:KL惩罚项的必要性。KL惩罚是一种防止AI训练过程中"走偏"的机制,就像给学习过程加上了"护栏"。

有些研究建议完全移除KL惩罚以提升性能,但研究团队发现这样做很容易导致训练崩溃。当他们将KL惩罚系数设为0时,格式奖励曲线出现了异常的震荡,训练变得不稳定。相比之下,即使使用很小的KL惩罚值(比如0.0001),也能有效避免这个问题。

这个发现可能与视觉空间推理问题的特殊性质有关。空间推理需要在感知和逻辑推理之间保持平衡,完全放开约束可能会让模型在某些方面过度优化而忽略了其他重要方面。就像学习骑自行车时,完全不用辅助轮可能会摔得很惨,但保留一点点支撑就能稳定地进步。

研究团队还观察到了"奖励黑客"现象。在某些情况下,AI找到了获得高奖励但不符合预期的方法。比如,在观察模式训练中,有些生成的回答包含了空的思考标签,在技术上符合格式要求但没有真正的观察内容。为了缓解这个问题,他们尝试加入长度奖励,但又发现AI会添加无意义的标签来利用这个奖励机制。

**六、训练成果:小模型的大突破**

经过精心设计的GRPO训练,研究成果令人印象深刻。vsGRPO-2B模型仅使用120个GPU小时的训练时间,就在VSI基准测试中取得了显著提升。

在平均得分上,vsGRPO-2B从基础模型的23.3分提升到35.4分,提升幅度达到12.1%。更令人惊喜的是,这个仅有20亿参数的小模型竟然超越了GPT-4o在同一基准上的表现(34.0分)。这就像是一个初中生在数学竞赛中击败了大学生一样令人意外。

不同任务的提升程度有所差异。在物体计数任务上,模型从21.4分跃升至53.6分,提升幅度超过150%。在绝对距离测量上,从3.4分提升到29.0分,改善尤为显著。在物体尺寸评估和房间尺寸评估上也有大幅提升。相对来说,在相对距离、相对方向等任务上的提升较为温和,但仍然有明显改善。

对于7B参数的模型,研究团队主要测试了朴素模式的训练效果。vsGRPO-7B在平均得分上达到了40.7分,超越了基础模型的32.2分。在某些任务上,比如物体计数(59.9分)和物体尺寸评估(50.8分),表现尤为出色。

更重要的是,vsGRPO-7B的性能已经接近当前最好的开源模型LLaVA-NeXT-Video-72B(40.9分)。考虑到参数量的巨大差异(7B vs 72B),这个结果表明了训练方法的有效性。这就像是用一辆小汽车的油耗跑出了大卡车的载重能力。

有趣的是,对于用特定提示模式训练的模型,使用对应的提示进行测试确实能获得更好的表现。这表明GRPO训练确实增强了模型的长序列推理能力,即使这种能力在基础模型中无法通过简单的提示来激发。

**七、方法对比:GRPO的优势所在**

为了验证GRPO方法的有效性,研究团队还与其他常用的训练方法进行了比较,包括监督微调(SFT)和直接偏好优化(DPO)。

监督微调是最直接的方法,直接使用VSI-100k数据集对模型进行训练。这种方法确实带来了改善,Qwen2-VL-2B的平均得分从23.3提升到29.6,但改善幅度明显小于GRPO的35.4分。这就像是死记硬背和理解学习的区别,前者能带来一定提升,但后者的效果更加显著。

直接偏好优化需要构建偏好对,研究团队通过将正确答案修改为错误答案来创建较差的选择。但这种方法的效果很有限,平均得分只提升到23.9,几乎没有改善。这可能是因为偏好对的构建方式过于简单,没有捕捉到空间推理任务的复杂性。

在7B模型上,类似的模式再次出现。监督微调将平均得分从32.2提升到38.1,而GRPO则达到了40.7。DPO的表现依然不佳,只有32.6分的微小提升。

这些对比结果表明,GRPO在视觉空间推理任务上具有明显优势。其成功可能源于奖励机制能够提供更细致的学习信号,特别是对于需要精确判断的空间关系任务。而且,GRPO的生成式特性让模型能够探索更多可能的解决方案,而不是局限于预定义的答案空间。

**八、技术细节与实际应用**

在实际实施过程中,研究团队采用了LoRA(低秩适应)训练技术来提高效率。这种技术就像是只更新模型的一小部分权重,而不是重新训练整个模型,大大降低了计算成本。对于2B模型,他们使用了10^-5的学习率,对于7B模型则使用了5×10^-6的学习率。

训练过程中,系统为每个问题生成14个候选答案,采样温度设为1.0以保持适当的随机性。KL散度系数设为0.0001,这个看似很小的数值却起到了关键的稳定作用。

从训练动态来看,格式奖励在训练早期就快速收敛到1,表明模型很快学会了按要求格式回答。而准确性奖励的提升相对缓慢,这反映了空间推理能力的获得需要更长时间。研究团队观察到准确性奖励似乎存在上界,如何突破这个限制是未来需要探索的问题。

值得注意的是,训练后的模型在未见过的任务上也表现出了一定的泛化能力。尽管路线规划和出现顺序任务没有包含在训练数据中,但模型在这些任务上也有所改善。这表明空间推理的不同方面之间存在内在联系,掌握了基础能力后能够举一反三。

**九、研究局限与未来方向**

尽管取得了显著进展,这项研究仍然存在一些局限性。首先,训练数据主要基于室内场景,对于户外环境或更复杂的空间关系,模型的表现还有待验证。其次,某些复杂的空间推理任务,如多步导航规划,仍然是挑战。

奖励黑客现象也提醒研究者需要设计更加健壮的奖励函数。当前的奖励机制虽然有效,但还不够精细,可能会被模型以意想不到的方式利用。未来需要开发更加智能的评估方法,能够真正判断模型是否理解了空间关系,而不仅仅是给出了正确答案。

准确性奖励的上界问题也值得深入研究。这可能反映了当前模型架构或训练方法的根本限制,突破这个瓶颈可能需要新的技术突破。

从应用角度来看,这项研究为AI在物理世界中的应用开辟了新的可能性。改进的空间推理能力将直接惠及机器人导航、增强现实、自动驾驶等领域。当AI能够更准确地理解空间关系时,它就能更好地与人类协作,在复杂环境中执行任务。

说到底,这项研究证明了一个重要观点:有时候,不是模型不够聪明,而是我们没有找到正确的教学方法。通过精心设计的训练策略,即使是相对较小的模型也能在特定任务上达到令人惊喜的性能。这就像是一个好老师能够激发学生的潜力一样,正确的训练方法能够释放AI模型的隐藏能力。

随着技术的不断发展,我们有理由相信,AI的空间智能将继续提升,最终达到甚至超越人类的水平。这不仅会改变我们与AI交互的方式,也会为构建更智能、更有用的AI系统奠定基础。对于普通人来说,这意味着未来的AI助手将能够更好地理解我们的物理环境,提供更加贴心和实用的帮助。

Q&A

Q1:什么是视觉空间推理,为什么对AI来说很困难? A:视觉空间推理就是通过观看视频或图像来判断物体之间的距离、方向、大小等空间关系的能力。对AI来说困难是因为这需要同时处理视觉信息和空间逻辑,就像让一个从未见过立体世界的人突然理解3D关系一样复杂。

Q2:GRPO训练法会不会让AI变得过于依赖奖励机制? A:确实存在这个风险,研究中发现了"奖励黑客"现象,AI有时会找到获得高分但不符合预期的方法。但通过合理设计奖励函数和保持适当约束,可以引导AI学习到真正有用的能力而不是投机取巧。

Q3:这个研究成果能应用到哪些实际场景中? A:主要应用包括智能家居中的物体识别和空间导航、机器人在室内环境中的自主移动、增强现实应用中的空间定位、自动驾驶中的环境理解等。简单来说,任何需要AI理解物理空间关系的场景都能受益。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-