在当今快速城市化的世界中,精确了解城市社会经济状况对于城市规划、资源分配和政策制定至关重要。然而,传统的城市数据收集方法往往耗时费力,难以实时反映城市变化。2025年5月,清华大学、北京交通大学的研究团队在论文《CityLens: Benchmarking Large Language-Vision Models for Urban Socioeconomic Sensing》中提出了一个创新性的解决方案,将最先进的人工智能技术引入城市观察领域。这项研究由刘天辉、冯杰、庞鹤天、张鑫、欧阳天健、张志远和李勇共同完成,已在arXiv预印本平台发布(arXiv:2506.00530v1),相关代码和数据集已通过GitHub开源共享。
想象一下,如果我们能像阅读一本书那样"阅读"一座城市的街道和建筑。CityLens正是这样一个"城市阅读器",它评估大型语言-视觉模型(LLVMs)通过卫星图像和街景照片来预测城市社会经济指标的能力。这就像是训练人工智能成为一名城市观察家,让它通过城市的外表来推断其内在的社会经济状况。
为什么这项研究如此重要?城市社会经济数据是联合国可持续发展目标的基础,直接影响居民生活质量,并深刻影响城市不平等、流动性和资源分配等关键方面。政府和城市规划者依靠这些数据来制定从区域规划到基础设施投资再到公共卫生策略的各种决策。而CityLens提供了一种全新的方式,利用人工智能从城市图像中提取这些关键信息。
传统方法在处理非结构化数据、跨国应用和理解文化差异方面存在局限。大型语言-视觉模型凭借其整合多种模态、全球泛化和理解文化细微差别的能力,天生适合应对这些挑战。然而,目前还缺乏一个系统的、统一的基准来全面评估这些模型在城市社会经济感知任务中的表现。CityLens正是填补了这一空白。
这个基准横跨六大洲的17个城市,涵盖了经济、健康、教育、环境、交通和犯罪等六个领域的11个指标,通过三种不同的评估方法测试了17个最先进的大型语言-视觉模型。研究结果表明,虽然这些模型在感知和推理方面表现出色,但在准确预测城市社会经济指标方面仍面临挑战。
接下来,让我们一起深入了解CityLens的构建过程、评估方法和发现的见解,看看这项技术如何帮助我们更好地理解城市,为更可持续、更公平的城市发展提供支持。
一、城市图像分析的新视角:CityLens基准的构建
想象你是一名城市侦探,需要通过观察街道、建筑和城市景观来推断一个地区的财富水平、教育状况或犯罪率。这正是CityLens希望训练AI模型完成的任务。研究团队构建了一个全面的基准,用于评估大型语言-视觉模型预测城市社会经济指标的能力。
这个基准的数据收集过程就像是组建一个全球城市图像档案馆。研究团队首先确定了六个关键领域:经济、教育、犯罪、交通、健康和环境。在经济领域,他们收集了国内生产总值(GDP)、房价和人口数据;在教育领域,他们关注了学士学位比例;在犯罪领域,他们记录了暴力犯罪发生率;在交通领域,他们统计了公共交通使用率和驾车比例;在健康领域,他们收集了心理健康、医疗可及性和预期寿命数据;在环境领域,他们测量了建筑高度。
这些数据的来源多种多样,就像从不同渠道获取城市线索。GDP数据来自全球数据集,提供1公里空间分辨率的GDP估计;人口数据采用WorldPop提供的全球人口统计;房价数据则根据不同国家的情况分别从Zillow房屋价值指数(美国)、健康城市数据集(英国)和链家(中国)等平台收集。健康数据主要来自"地方数据促进更好健康"项目,交通数据源自2017年全国家庭旅行调查,而犯罪数据则从各个美国城市的官方网站获取。
为了获取城市的视觉信息,研究团队就像一名勤奋的摄影师,从两个角度捕捉城市面貌:鸟瞰和街道视角。他们使用百度地图API获取北京和上海的街景图像,用谷歌街景API获取其他城市的街景照片,并从Esri世界影像库下载所有城市的卫星图像。
在确定最终的预测任务时,研究团队面临一个选择的难题:在初始收集的28个指标中,哪些最适合通过图像预测?他们采用了两个筛选原则。首先,评估指标的感知相关性——人类是否能合理地从卫星和街景图像中推断出这个变量。例如,"工作日个人旅行里程估计"这类缺乏可见空间线索的指标被排除在外。其次,他们分析了语义相似指标之间的皮尔逊相关性,以避免任务重复。例如,他们发现肥胖和心理健康高度相关(皮尔逊r = 0.7524),这从直觉上也可以理解——心理压力或精神状况不佳的人往往会过度进食或养成不健康的饮食习惯。为避免任务重复,他们在最终任务列表中只保留了心理健康指标。
通过这个精心的筛选过程,最终确定了11个代表性指标作为预测任务。这些任务在不同的地理单位上定义:美国城市以人口普查区为单位,英国城市以MSOA(中层超级输出区)为单位,全球任务则以卫星图像覆盖区域为单位。每个区域由一张卫星图像和10张街景图像共同表示,这些图像被输入到大型语言-视觉模型中进行预测。
研究团队最初尝试使用每个区域20张街景图像,但发现这对于大型语言-视觉模型来说计算成本过高,而且超出了某些模型(如Gemini)的输入限制。因此,他们采用了每个区域10张图像的折中方案,在确保模型兼容性的同时保持足够的视觉上下文。
最终的CityLens数据集包含了丰富的城市数据:GDP任务有4285张卫星图像和42842张街景图像,人口任务有4517张卫星图像和45157张街景图像,房价任务涵盖美国、英国和中国的769张卫星图像和7770张街景图像。这个庞大的数据集为评估大型语言-视觉模型在城市社会经济感知方面的能力提供了坚实基础。
二、解读城市图像:三种评估大型语言-视觉模型的方法
想象你有三种不同的方式来训练一位城市观察家。第一种是直接问他"这个地区的房价是多少?";第二种是让他在一个相对尺度上评估"这个地区的富裕程度在哪个水平?";第三种则是请他描述他所看到的一切特征,然后你根据这些描述来推断地区特性。这正是CityLens采用的三种评估方法。
第一种方法称为"直接指标预测"。在这种方法中,研究人员将区域级城市图像提供给模型,并直接询问具体的指标值,比如:"这个人口普查区公共交通出行的人口百分比是多少?"此外,提示还将模型定位为特定城市的城市社会经济科学家。尽管如此,模型在准确预测这些指标的确切真实值方面仍面临重大挑战。
第二种方法是"归一化指标估计",灵感来自GeoLLM研究。考虑到直接预测精确指标值的难度,研究人员将所有指标值转换为从0.0到9.9的归一化范围,精确到一位小数。然后引导模型根据输入图像估计这个归一化值。这种方法旨在探究模型是否具备粗粒度的空间知识和将视觉线索与相对指标水平关联的能力。
第三种方法是"基于特征的回归"。在这种方法中,研究人员首先设计了一个结构化提示,引导大型语言-视觉模型沿着13个预定义的视觉属性评估每张街景图像,这些属性遵循之前研究提出的视觉分类法。这些特征捕捉了城市环境的关键元素,如绿化、车辆、立面和人行道。对于每个区域,研究人员使用10张采样的街景图像表示其视觉环境。对于每个视觉特征,他们计算这些图像的平均得分,形成一个表征该区域的单一特征向量。然后,这些聚合的视觉特征被用作输入,训练一个LASSO回归模型,以预测相应的真实指标值,使用5折交叉验证设置。
研究团队评估了17个最先进的大型语言-视觉模型,包括开源和专有系统,涵盖了不同规模和能力的模型。他们选择了Gemma3-4B/12B/27B、Qwen2.5VL-3B/7B/32B、Llama4-Scout/Maverick、Mistral-small-3.1-24B、Phi-4-multimodal、MiniMax-01、Gemini-2.0-flash/Gemini-2.5-flash、GPT-4o-mini、GPT-4.1-mini/nano和Amazon-Nova-Lite等模型进行评估。值得注意的是,Gemini系列模型每次最多只能接受10张图像作为输入,因此对于这一系列,研究人员使用1张卫星图像和9张街景图像来保持在模型的输入限制内。
为了评估性能,研究团队采用了社会经济预测任务中常用的两个指标:决定系数(R?)和归一化均方根误差(nRMSE)。较高的R?表示更好的性能,1.0代表完美预测;较低的nRMSE值表示更准确的预测。
通过这三种不同的评估方法,CityLens提供了一个全面的框架来评估大型语言-视觉模型在城市社会经济感知任务中的表现,并深入了解它们的优势和局限性。
三、城市AI侦探的表现:基于特征回归的实验结果
如果说大型语言-视觉模型是城市AI侦探,那么它们在解读城市图像并预测社会经济指标方面表现如何呢?让我们先看看基于特征回归方法的实验结果。
总体而言,CityLens基准对当前的大型语言-视觉模型提出了重大挑战。某些任务,如心理健康和学士学位比例,表现出较低的R?分数,在某些情况下甚至接近零,例如0.001。这凸显了CityLens在基于特征回归方法中的难度:即使利用先进的大型语言-视觉模型提取的视觉特征,所得到的表示也常常无法捕捉预测社会经济指标所需的复杂模式,特别是在健康和教育等领域,其中视觉线索往往微妙、嘈杂或间接。
不同模型之间存在显著的性能差异,反映了模型规模、架构和训练设计如何影响它们提取有意义的视觉特征用于下游预测的能力。比较同一系列但规模不同的模型,研究人员发现增加模型规模并不总是保证更好的性能。例如,Gemma3-12B在GDP和预期寿命任务上取得了最佳分数,但27B变体尽管规模更大,在这两个任务上的表现却更差,相对下降了4.3%和6.8%。这一反直觉的结果可能归因于社会经济感知任务的独特性质,该任务要求模型从城市图像中一致地提取和评分一组预定义的微妙视觉特征。
当比较来自不同系列但规模相似的模型时,明显的差异浮现出来。例如,Gemma3-4B在几乎所有任务中都明显优于Qwen2.5VL-3B,相对改进在不同指标中范围从6.4%到255%不等,这表明Gemma的架构或训练过程可能使其能够更一致、更有信息地评分城市视觉特征,从而在下游社会经济预测中取得更好的性能。
性能也因任务类型而异。像建筑高度、公共交通和GDP这样的任务在模型之间往往有较高的值,建筑高度达到0.59的R?,这表明这些指标与街景图像中可以直接捕捉到的更多可观察视觉线索相关联。例如,建筑高度与图像中可见的天际线和垂直结构密切相关;公共交通使用情况可能从公交站、交通标志或道路标记的存在中推断出来。相比之下,预期寿命和心理健康等任务仍然是高度具有挑战性的,对许多模型显示出低或接近零的预测分数。这些指标受到生活方式、压力水平或社会凝聚力等潜在因素的影响,这些因素在城市环境中没有明确或直接的视觉表现。即使存在某些代理指标,如涂鸦的存在或绿地的数量,它们通常也很微妙或语义上模糊,使当前的大型语言-视觉模型难以可靠和一致地解释它们。
四、不同预测方式的表现:直接预测与归一化估计的比较
在评估大型语言-视觉模型在所有11个任务上的性能时,研究人员使用了直接指标预测和归一化估计两种设置。为确保分析的稳健性,排除了简单或归一化R?小于或等于0.5的任何数据点,因为这些值通常反映弱预测性能且无分析意义。
从结果来看,少数任务如房价、公共交通和建筑高度在某些模型和设置下取得了相对较好的R?分数,例如在直接设置下房价任务始终超过0.2。这些任务可能更具视觉基础,具有建筑密度、道路布局和商业标志等线索,可以直接从城市图像中观察到。这表明一些社会经济指标在视觉-结构联系强时可能更容易近似。
然而,大多数结果落入低甚至负R?范围,表明模型的预测往往无法解释真实指标值的方差。这表明,虽然大型语言-视觉模型在感知和推理方面取得了快速进展,但预测区域级社会经济指标仍然是一个高度具有挑战性且未充分探索的任务。模型可能仍然缺乏将城市视觉内容与结构化社会经济数量关联所需的数值基础、上下文解释和语义对齐。即使通过归一化(通过粗化预测空间减轻精度需求),性能在大多数任务中仍然较弱。在许多情况下,模型预测倾向于收敛到城市范围的平均值或展示狭窄的输出范围,表明缺乏对细粒度区域变化的敏感性。这种行为表明,模型可能难以区分城市区域之间的微妙社会空间差异,特别是当视觉线索弱或模糊时。
研究人员还将直接和归一化方法进行了对比。对角线表示两种方法下的相等性能;位于对角线上方的点表示任务更受益于归一化,而下方的点表示直接估计的偏好。结果显示,不同任务倾向于偏好不同的估计策略,取决于指标的性质及其视觉和语义特性。
具体来说,暴力犯罪、GDP和人口等任务更频繁地出现在对角线上方,表明这些与直接视觉对应关系有限的指标受益于强调相对排名而非精确值预测的归一化公式。这些任务难以准确估计,但模型可能仍能捕捉区域之间的粗略序数关系,在全球知识先验和隐式排名感的帮助下。相反,学士学位比例、房价、公共交通和医疗可及性等任务往往落在对角线下方,表明在直接估计设置下表现更好。这些任务通常与更清晰、更稳定的视觉相关物相关联,如建筑类型、基础设施可见性和环境布局,可以支持更精确的图像到值映射。此外,一些指标如预期寿命展现更窄的值范围或更低的方差,使其更适合直接值预测。此外,对于像房价和学士学位比例这样的任务,大型语言-视觉模型可能利用关于不同城市典型值尺度的潜在知识,使其能够进行惊人准确的数值预测。
总的来说,这些发现强调了社会经济指标预测中任务特定方法选择的重要性。一些指标通过减少输出精度以关注更广泛的区别而受益,而其他指标保留足够的视觉信号以支持直接预测。CityLens基准因此不仅测试模型能力,还揭示了任务语义与预测策略之间的微妙相互作用。
五、深入分析:城市间差异、卫星图像影响和街景数量效应
为了更好地理解城市社会经济预测结果在不同城市间的变化,研究人员对GDP任务进行了城市级分析,使用基于特征回归范式。14个城市中的每一个都由100个区域表示,Gemma3-12B为每张街景图像提取13个视觉特征。GDP任务之所以被选中,是因为它是一个全球规模的指标,在CityLens中覆盖了最多的城市。
在评估的13个城市中,模型性能显示出相当大的变化。上海、旧金山和圣保罗等城市实现了超过0.43的R?分数,表明相对强的预测性能。上海等城市之所以表现强劲,可能在于其结构良好的城市设计和街道级外观与经济发展之间的高度一致性。这些城市往往在富裕和不太富裕地区之间有明确的视觉分层,一致的建筑模式和同质的分区,使特征更易于学习,以及高质量、多样的街景覆盖。相比之下,孟买和莫斯科等城市产生接近零甚至负R?,这可能归因于两个关键因素。首先,街道级视觉效果和实际经济活动之间可能存在弱一致性,特别是在具有空间混合发展的城市,财富和贫穷在同一区域共存,模糊了视觉经济信号。其次,街景图像的质量和覆盖范围可能是一个限制因素。不一致的图像来源、低分辨率或稀疏采样减少了可靠视觉线索的可用性,阻碍了特征提取并降低了下游预测。
研究人员还通过比较有无卫星图像的模型性能来评估卫星图像的影响。他们测试了房价、公共交通和驾车比例3个任务,使用Gemini-2.0-Flash在直接指标预测设置下。结果显示两种配置之间的性能差异最小,这看起来违反直觉,因为人们通常假设卫星图像可以提供可能对社会经济预测有信息的高级空间线索,如区域发展强度、土地使用和城乡梯度。一种可能的解释是街景图像已经提供了足够丰富和细粒度的视觉信息,如建筑状况和公共基础设施。这些地面级特征可能对当前的大型语言-视觉模型更直接可解释,并与这些任务中的目标指标更紧密耦合。因此,一张额外的卫星图像可能提供冗余或影响较小的信息,导致性能增益可忽略不计。
最后,研究人员评估了街景图像数量对预测性能的影响,使用Llama4-Maverick在直接指标预测设置下进行房价任务实验。在这个实验中,每个区域由一张卫星图像和不同数量的街景图像表示:1、5、10、15或20张。此外,他们测试了一个无图像基线,遵循GeoLLM的设计,其中只在提示中提供地理坐标和地址,没有任何视觉输入。在这种设置下,模型的大多数回应都是拒绝,表明模型缺乏足够的信息来生成自信的估计。有趣的是,在几个案例中,模型主动建议替代方案,如查看当地房屋网站,展示了大型语言-视觉模型的对话安全和推理能力,但也表明其在开放世界知识检索方面的局限性。
从结果看,研究人员观察到一个明确的趋势:增加街景图像的数量一致地提高了模型性能。随着更多图像的包含,R?增加而nRMSE减少。这表明更丰富的视觉上下文帮助模型形成对区域社会经济状况的更准确理解。
六、结论与未来展望:城市AI观察员的前景与局限
CityLens基准的实验结果为大型语言-视觉模型在城市社会经济感知中的应用提供了宝贵见解。研究发现,虽然这些模型在某些具有明显视觉线索的任务上表现较好,如建筑高度,但在准确预测大多数区域级社会经济指标方面仍面临重大挑战。
模型输出往往趋向于城市级平均值,表明模型缺乏对城市内部变化的敏感性,因而表现出有限的地理空间基础。在两种以LLVM为预测器的范式中,不同任务倾向于偏好不同的策略:有些在直接值预测下表现更好,而其他则从归一化估计中受益。总体而言,结果表明基于特征的回归范式(其中LLVM作为特征增强器)显著优于两种基于预测器的方法。
这些发现指向了几个有前途的未来研究方向。首先,虽然基于特征的方法依赖于训练过的LASSO回归器,但基于预测器的方法在零样本设置中进行评估。这凸显了直接针对社会经济指标预测任务微调大型语言-视觉模型的潜在好处。其次,提示工程的改进可能提升模型性能。特别是,引入思维链(CoT)提示可能有助于指导模型通过中间推理步骤,产生更可靠的数值估计。最后,研究者展望了专为城市社会经济感知量身定制的领域特定代理框架的发展,该框架可能结合视觉感知、地理空间知识和推理模块,在现实世界场景中做出稳健和上下文感知的预测。
CityLens提供了一个基础,用于分析这些限制并激励进一步研究,以增强大型语言-视觉模型在城市社会经济感知中的能力。通过这项工作,研究人员不仅推进了人工智能技术在城市研究中的应用,还为更可持续、更公平的城市发展提供了新工具。
正如一名城市规划师需要深入了解城市的社会经济结构才能做出明智决策一样,我们的AI系统也需要发展这种理解能力,才能真正帮助我们建设更美好的城市。CityLens向这个目标迈出了重要一步,但道路仍然漫长——这正是城市和技术发展的共同特点。
好文章,需要你的鼓励
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。
这篇论文介绍了LegalSearchLM,一种创新的法律案例检索方法,将检索任务重新定义为法律要素生成。研究团队构建了LEGAR BENCH数据集,涵盖411种犯罪类型和120万案例,并开发了能直接生成关键法律要素的检索模型。实验表明,该模型在准确率上超越传统方法6-20%,且在未见犯罪类型上展现出强大泛化能力。这一突破为法律专业人士提供了更高效、精准的案例检索工具。