微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 GRE套装:提升视觉语言模型地理定位能力的全新方案 - 精细调优与强化推理链打造超强视觉地理识别能力

GRE套装:提升视觉语言模型地理定位能力的全新方案 - 精细调优与强化推理链打造超强视觉地理识别能力

2025-06-02 12:20
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-02 12:20 科技行者

近日,由浙江大学的王淳、潘晓然,中山大学的潘子豪,LibLib.ai的王浩帆以及新加坡国立大学的宋义仁领导的研究团队在arXiv上发表了一篇题为《GRE Suite: Geo-localization Inference via Fine-Tuned Vision-Language Models and Enhanced Reasoning Chains》的论文。该论文于2025年5月24日发布,提出了一种全新的地理定位推理框架。有兴趣深入了解的读者可以通过GitHub仓库https://github.com/Thorin215/GRE获取更多信息。

想象一下,你正在玩一个"看图猜地点"的游戏:朋友给你展示一张世界某处的照片,要求你猜出这是哪里。对人类来说,我们会寻找各种线索——建筑风格、标志性景点、植被类型、文字标识等,然后结合我们的地理知识做出推测。但对计算机来说,这个任务就复杂得多了。这正是本研究要解决的核心问题。

在人工智能领域,视觉语言模型(VLM)近年来在视觉理解任务上取得了显著进步,但在地理定位这一特殊挑战面前仍有不少困难。为什么呢?因为地理定位需要从图像中提取多层次的视觉线索,并将这些线索与外部地理知识结合起来进行系统性推理。就像一个侦探需要从现场搜集各种证据,然后将它们与已知信息联系起来破解案件一样。

目前的地理定位方法大多缺乏强大的推理机制和可解释性,就像一个不会解释自己判断依据的侦探,即使猜对了也让人难以信服。为了解决这些限制,研究团队提出了地理推理增强套装(GRE Suite),这是一个通过结构化推理链增强视觉语言模型能力的新型框架。

GRE套装的开发横跨三个关键维度:数据集、模型和评估基准。首先,研究团队创建了GRE30K,这是一个高质量的地理定位推理数据集,专为促进细粒度的视觉和上下文分析而设计。接着,他们开发了GRE模型,该模型采用多阶段推理策略,逐步推断场景属性、局部细节和语义特征,从而以更高的精度缩小潜在地理区域的范围。最后,他们构建了地理推理评估基准(GREval-Bench),这是一个全面的评估框架,用于在各种城市、自然和地标场景中评估视觉语言模型的性能,测量粗粒度(如国家、大洲)和细粒度(如城市、街道)的定位能力。

实验结果表明,GRE在所有粒度的地理定位任务中都显著优于现有方法,突显了推理增强型视觉语言模型在复杂地理推断中的有效性。这就像是训练了一个超级侦探,不仅能更准确地破案,还能详细解释每一步推理过程。

一、GRE套装的核心挑战:地理定位的独特难题

全球图像地理定位的目标是根据任何在地球上拍摄的照片预测其拍摄地点的地理坐标。与特定区域内的地理定位不同,全球地理定位不受任何特定地区的限制,而是覆盖整个地球,这大大释放了地理定位的潜力。想象一下,这就像是从一张照片出发,在没有任何GPS标签的情况下,准确找出照片中的场景位于地球上的哪个角落。这项技术在自动驾驶系统定位、社交媒体图像地理标记和文化遗产保护等多个领域都有重要应用。

然而,精确的全球规模图像地理定位仍面临巨大的技术挑战。这就像在全球范围内玩寻宝游戏,但线索极其有限且容易混淆。首先,全球地理环境的多样性使得模型需要理解从热带雨林到北极冰川的各种地貌;其次,不同地点之间可能存在视觉模糊性,比如许多城市的商业区看起来非常相似;最后,拍摄条件的变化(包括天气模式、季节变化和光线条件)使得即使是同一地点在不同时间拍摄的照片也可能看起来截然不同。

地理定位需要仅从地面视角图像预测照片的地理坐标。提取一般的地理视觉语义是不够的,因为两个相距遥远的地点可能共享类似的图像级特征。例如,许多现代化城市的商业区从某些角度看可能十分相似。相反,模型需要从复杂的视觉信息中识别并推理与地理相关的视觉元素。

如图1所示,当推断目标位置——圣地亚哥会议中心时,模型需要综合利用显性指标(如"白色帆船"屋顶设计)和隐性指标(如平坦地形)。然而,现有方法依赖数据驱动的跨模态对齐策略,通过大规模注释的图像-GPS对建立对应关系,同时忽略了图像内细粒度地理指标之间的内在逻辑关系。此外,模型需要预测世界上任何地点拍摄的图像的地理坐标。然而,基于封闭域假设的现有方法要么维护GPS坐标或图像的候选数据库,要么将整个地理空间划分为固定网格进行分类,从而损害了坐标预测的连续性。因此,图像地理定位模型必须具备在不依赖候选信息的情况下预测开放式坐标的能力,而当前方法对此解决得不够充分。

最近,DeepSeek-R1成功应用强化学习(RL)来促使大型语言模型(LLM)中复杂认知推理能力的自我产生。图像地理定位本质上是一个多步骤认知过程,需要渐进式推理——从识别图像中的视觉线索,到推断这些线索之间的地理相关性,最终确定特定位置。这种渐进式推理过程自然地与强化学习的顺序决策特性相符。通过强化学习,模型可以学习根据识别的视觉特征制定最佳推理策略,逐步缩小潜在的地理区域,最终得出准确的位置预测,而不是简单地依赖预先建立的图像-GPS对应关系。不幸的是,这种直接的强化学习训练面临挑战,因为在没有大规模、高质量多模态数据和长期训练的情况下,它难以有效地引导多模态大语言模型(MLLM)生成复杂的思维链(CoT)推理。

二、GRE:地理推理增强的全新框架

为了解决上述挑战,研究团队提出了地理推理增强(GRE),这是一种将冷启动监督微调和两阶段强化学习训练相结合的新型推理解决方案,用于全球图像地理定位。为了促进训练过程,他们利用GPT-o3生成地理种子问题的思维链演示,建立了地理推理数据集GRE30K。他们精心策划的GRE30K由两个子数据集组成:GRE30K-CoT,其中包含经注释者筛选并在格式上标准化的CoT内容和答案;以及GRE30K-Judge,其中包含通过正则表达式匹配构建的推理链判断任务。GRE30K-CoT作为冷启动数据集,用于建立基础模型的基本推理能力。然后,他们需要在GRE30K-Judge和种子问题上应用两阶段群组相对策略优化(GRPO),以增强模型的推理能力。

三、GRE套装的三大核心部分

研究团队系统地开发了GRE套装,跨越三个关键维度:数据集、模型和基准。这就像是为解决地理定位问题打造了一套完整的工具箱,每个工具都有其特定的功能。

首先是GRE30K数据集的构建。研究团队充分利用了公开可用的MP16-Pro数据集,该数据集带有GPS坐标。然而,源数据集仅包含图像、坐标和离散地理信息,这对训练多模态大语言模型(MLLM)是不够的。团队的目标是构建一个包含复杂认知过程的思维链(CoT)数据集,以促进他们的训练策略,使GRE能够以类似人类认知模式的方式进行推理。利用GPT-o3强大的推理能力,他们通过精心设计的提示模板生成图像-CoT-坐标三元组。

为了解决源CoT数据中潜在的错误和不匹配问题,研究团队结合了自动过滤和人工验证,以确保测试数据的质量和可靠性。最终,他们收集了20k高质量CoT样本。通过这种方式获取CoT数据,推理过程展现出自然和逻辑思维,密切模仿人类认知行为。

除了通过高质量CoT数据标准化模型的推理过程外,他们还开发了GRE30K-Judge,这是一个判断任务数据集。该数据集通过使用阈值θ比较提取的预测与真实值来创建,相应地将图像标记为"真"或"假"。生成的数据集被纳入强化学习训练中,使模型能够从正确和错误的推理模式中学习,从而增强其地理推理能力。总共,他们获得了10k判断样本。

四、多阶段训练策略:从冷启动到强化学习

为了增强视觉推理能力,研究团队引入了由冷启动初始化和两阶段基于规则的强化学习(RL)组成的三阶段后训练策略。监督微调(SFT)稳定了模型的推理过程并标准化了其输出格式,而RL进一步提高了在各种地理定位任务中的泛化能力。

冷启动初始化阶段利用GRE30K-CoT数据集对预训练的多模态大语言模型(MLLM)进行监督微调,作为基础MLLM进行冷启动初始化。经过冷启动初始化的MLLM被命名为GRE-CI。在这个阶段,基础MLLM从GPT-o3学习了复杂的推理模式。通过使用GRE30K-CoT数据集进行监督微调,模型标准化输出格式并建立了系统性的推理框架。这个关键阶段促进了模型获取高质量结构化推理模式,从而为后续的强化学习(RL)程序构建了坚实的基础。

在经过监督微调训练的模型基础上,研究团队采用基于规则的强化学习(RL)来优化结构化推理并确保输出有效性。具体来说,他们定义了两种受R1启发的奖励规则,并使用群组相对策略优化(GRPO)更新模型。RL阶段进一步鼓励模型生成可靠的输出并增强其在地理推理任务中的泛化能力。

基于规则的奖励分为两类:准确性奖励和格式奖励。准确性奖励规则评估最终答案的正确性,通过提取最终答案并根据真实值验证它们。对于图像地理定位任务,最终答案必须以指定格式提供,以启用可靠的基于规则的验证。在RL第一阶段,给定输入图像及其CoT和预测答案,模型评估推理过程和最终答案的正确性。如果生成的最终结果与真实值一致,模型接收奖励分数ri = 1;否则,接收分数ri = 0。在RL第二阶段,模型直接基于输入图像预测坐标,奖励由阈值指标θ确定。

格式奖励规则要求响应必须遵循严格的格式,其中模型的推理被包含在和标签之间。正则表达式确保了这些推理标记的存在和正确顺序。此外,和标签用于确保模型给出了答案。

对于训练算法,研究团队采用群组相对策略优化(GRPO)来实现一致策略更新和鲁棒奖励信号的平衡集成。对于生成输出中的每个令牌,GRPO首先计算新策略(πθ)和参考策略(πref)下的对数概率。然后计算概率比并将其裁剪到范围[1-ε, 1+ε]以约束策略更新并避免发散。随后,归一化的奖励(视为优势估计)用于PPO风格的损失函数,结合策略优化与KL散度(由β加权)正则化。

与其他方法相比,GRPO裁剪机制防止了极端的策略转变,而KL正则化使更新后的策略与基线保持一致。这种组合确保了模型有效地集成基于规则的奖励,同时不损害训练稳定性。

五、GREval-Bench:全面评估地理定位能力的新基准

为了全面评估模型的图像地理定位能力,研究团队开发了一个名为GREval-Bench的地理推理评估基准。现有基准直接从地理标记的Flickr图像构建,没有适当的过滤。具体来说,这些基准包含许多缺乏地理相关线索的图像,如人像和以物体为中心的照片。包含这类地理信息不足的样本会损害评估结果的有效性。此外,这些基准主要关注最终预测,而忽视对整个思维链(CoT)过程的评估。CoT过程反映了地理推理能力的多个方面,是理解模型推理模式和局限性的关键媒介。

为了解决这些挑战,研究团队在GREval-Bench中提出了一个半自动化的地理定位图像过滤和CoT注释生成管道。GREval-Bench包含3K三元组,每个包含:(1)通过他们的管道过滤的地理推理图像,(2)相应的地理指标语料库,分为显性和隐性类型,详细的子类别在附录B.2中列出,以及(3)注释的关键思维链步骤和参考GPS坐标。通过他们的构建管道,他们增强了基准的图像质量和复杂性,通过消除缺乏地理指标的噪声图像,同时增加需要基于隐性指标推理的样本比例。这种改进促进了对模型地理定位能力的更准确评估。

如图5所示,研究团队指导GPT-4o将每个推理步骤分为三类:背景信息、图像描述和逻辑推断。他们计算背景信息与相应地理语料库之间的召回率。然后,他们使用RefCLIPScore评估图像描述与视觉内容之间的语义对齐,并利用BertScore评估预测和真实逻辑推断步骤之间的相似性。由于这些组件对视觉推理至关重要,他们通过将这三个指标的平均值计算CoT质量。

六、实验结果:GRE的突出表现

研究团队在Im2GPS3k和Google World Streets 15k(GWS15k)全球地理定位基准上对GRE进行了比较分析。为确保与现有方法的公平比较,他们提出的模型和基于变换器的模型仅使用MP-16数据集的5%进行训练。遵循先前工作中的协议,他们使用阈值指标报告结果。给定预测坐标和真实值,该指标量化了预测与真实值之间距离在指定阈值(1km、25km、200km、750km和2500km)内的预测百分比。

在Im2GPS3k数据集上,他们的方法在所有指标上都超过了先前的最先进模型,在1km、25km、200km、750km和2500km阈值上分别提高了+0.5%、+4.2%、+3.0%、+1.7%和+2.5%。

此外,他们的方法在更具挑战性的GWS15k数据集上展现了显著增益,超过了先前的最先进模型,在1km、25km、200km、750km和2500km阈值上分别取得了+0.2%、+1.0%、+2.0%、+9.1%和+4.2%的显著准确率提升。他们的模型仅使用5%的数据就实现了优于先前使用完整MP-16数据集的最先进方法的性能。GWS15k包含在地球上均匀采样的样本,不偏向任何特定地理位置。此外,该数据集中的图像与训练集相比有很大的分布偏移,使地理定位任务对强制对齐方法来说既艰难又具有挑战性。他们的显著改进可归因于有效的推理,利用了图像中的显性和隐性地理指标。

七、GREval-Bench上的模型对比及能力分析

研究团队在GREval-Bench上将他们的方法与先前的通用模型进行了比较,包括InternVL2.5系列、InternVL3系列和Qwen2.5-VL系列。他们对模型进行了全面评估,分析了不同距离阈值和场景下的上述指标,同时也评估了其推理链的质量。

结果显示,他们的方法在各种评估指标上实现了领先的平均性能,同时展示了更连贯的推理过程,避免了局部认知陷阱。像Qwen2.5VL-3B和InternVL3-2B这样参数较小的模型在提取隐性线索方面表现出明显更大的困难,相比它们的大型对应模型。这些模型经常在CoT推理的早期阶段犯错,从而损害后续的逻辑连贯性。

八、消融研究:训练数据和策略的有效性

为了评估训练数据和训练策略的有效性,研究团队比较了模型在四种不同训练策略下的性能:(1)在他们的数据集上应用冷启动初始化,(2)使用RL第一阶段进一步优化GRE-CI,(3)使用RL第二阶段进一步优化GRE-CI,以及(4)使用RL第一阶段和第二阶段进一步优化GRE-CI。

结果表明,在他们的数据集上应用冷启动初始化显著提升了模型在粗粒度(如国家、大洲)和细粒度(如城市、街道)定位性能上的表现。对于策略(2)和(3),(3)达到了可比的性能,而(2)在某些粒度级别上下降,这归因于第一阶段训练和测试任务(奖励)类型之间的不一致。总体而言,(4)由于其更强大的推理能力,展示了优于(3)的性能。

九、GRE的潜在应用与未来方向

通过GRE套装建立的地理定位推理能力为许多实际应用打开了大门。在自动驾驶系统中,增强的地理定位可以提高导航精度和安全性。对于社交媒体平台,它可以帮助准确地为用户上传的图像添加地理标签,增强用户体验并提供更相关的本地内容推荐。在文化遗产保护领域,该技术可以帮助识别和监测世界各地的历史地点和文化遗址,尤其是在详细地理信息有限的区域。

此外,GRE的推理能力还可以扩展到其他需要从视觉内容中提取和推理地理信息的领域,如环境监测、城市规划和灾害响应。例如,在灾害发生后,该技术可以帮助分析社交媒体上分享的图像,以快速确定受影响区域的位置,即使这些图像缺乏GPS元数据。

未来的研究方向可能包括将GRE的推理能力与其他多模态系统集成,以创建更全面的场景理解框架;探索将时间因素纳入推理过程,以考虑季节变化和城市发展;以及开发更高效的模型架构,使这些能力可以在资源受限的设备上部署。

此外,研究团队的工作为地理推理领域铺平了道路,未来可能会看到更多利用多模态大语言模型进行其他形式的空间推理的应用,从建筑内部导航到星际空间定位。

十、结论:推理增强型视觉语言模型的新篇章

本文介绍了一个用于视觉地理定位推理的全面框架,建立在统一数据构建、模型训练和评估的形式化方法基础上。该框架旨在解决当前方法的局限性,使模型能够在地理定位任务中进行推理。从图像中提取多粒度视觉线索并与外部世界知识整合的能力也将启发研究团队在视觉语言模型的其他领域进行探索。

这个框架促成了GRE数据集的创建,这是一个丰富的资源,具有详细的逐步推理注释,旨在增强地理定位任务的模型训练和评估。使用该框架训练的GRE模型展示了强大的地理定位推理能力,并在各种场景中表现出强大的泛化能力,从隐性场景到显性场景。

为了进一步支持地理定位的评估,研究团队引入了GREval-Bench,这是一个全面的基准,严格评估模型在各种地理空间场景中的表现。大量实验验证了他们方法的有效性,显示其比现有开源模型有显著改进。

总体而言,GRE套装代表了视觉语言模型领域的重要进步,特别是在地理定位和空间推理方面。通过结合结构化推理和强化学习,研究团队成功地提高了模型从视觉内容中提取和解释地理信息的能力,为未来更多基于位置的人工智能应用铺平了道路。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。

  • 微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。

  • 用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。

  • 播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-