
这项由泰勒地理空间研究所、慕尼黑工业大学、微软AI公益研究实验室、艾伦人工智能研究所、向量研究所、卡尔顿大学、克拉克大学、不列颠哥伦比亚大学以及亚利桑那州立大学联合开展的研究,以预印本形式于2026年5月12日发表在arXiv平台,论文编号为arXiv:2605.12678。有兴趣深入了解的读者可通过该编号查询完整论文。
假设你是一位想要购买一台笔记本电脑的消费者,你在网上搜索了十几篇评测文章,每篇文章都声称某款电脑是"最强"或"最快"的,但当你仔细比对时,发现同一款电脑在不同评测中的跑分相差了将近一倍,有的文章甚至没有说明测试时用的是什么软件、什么设置。你根本无从判断,哪篇评测是可信的,哪款电脑才是真正适合你的。
这正是目前地理空间人工智能领域正在发生的事情。这篇论文的研究团队花了大量时间系统审查了152篇相关论文,然后得出了一个令人不安的结论:没有人真正知道,在所谓的"地理空间基础模型"这个领域里,哪个模型才是真正最好的。
一、什么是"地理空间基础模型",为什么我们需要它
要理解这个问题的严重性,先要搞清楚这类模型是什么。
地球每天都在产生海量的卫星图像——农田的生长状态、洪水的蔓延范围、城市的扩张速度、森林的消退情况。处理这些图像,需要人工智能的帮助。以前,研究人员每做一个新任务,就要从头训练一个新模型,既费时又费钱。
后来,人工智能领域流行起一种新思路:先用大量数据训练一个"万能底座",就像建一栋大楼先打好地基,然后无论是要建商场还是住宅,直接在这个地基上盖就好了,不需要每次都重新打地基。这类"万能底座"就叫做基础模型。在自然语言处理领域,GPT系列模型就是这样的例子;在图像领域,有CLIP、DINO等。
地理空间基础模型,就是专门为处理卫星图像、遥感数据而打造的这类"万能底座"。理论上,一个好的地理空间基础模型应该能够被迁移到各种任务上:判断农作物是否健康、识别建筑物是否被洪水淹没、追踪土地覆盖的变化等等。
这个方向的研究在过去几年间井喷式爆发。研究团队从2019年到2025年,梳理出了152篇自称在做"基础模型"的相关论文。然而,当他们想回答一个最基本的问题——"这些模型里,哪个最好?"——他们发现,这个问题根本无法从现有的论文记录中找到可靠答案。
二、同一个模型,两篇论文相差56分——这不是笔误
研究团队发现的最触目惊心的例子,是关于一个叫做Scale-MAE的模型的测试结果。
这个模型的研发团队曾在一个叫做NWPU-RESISC45的标准测试集上,测试该模型识别遥感图像场景的能力,并公布了一个准确率:89.6分(满分100分)。这个数字看起来相当不错。
然而,另一个研究小组用同样的Scale-MAE模型,在同样的NWPU-RESISC45测试集上,用他们理解的"同样的测试方法",得出的结果是:33.0分。
同一个模型,同一个测试集,相差了整整56.6分。
你或许以为这是偶然的笔误或者极端个例。但研究团队系统性地检查了所有论文,在同一模型、同一测试集、同一测试类型的组合下,找到了301组可以跨论文比较的数据点。其中,有76组的差距超过5分,有46组的差距超过10分,还有20组的差距超过20分。整体来看,第90百分位的差距达到了12.7分——这意味着,在最"不一致"的那10%的比较中,误差超过了12分。
要知道,正常情况下,重复运行同一个测试,因为随机性造成的误差大约只有1分左右。56分、45分、30分的差距,绝对不是随机波动,而是测试条件存在了根本性的不一致。
研究团队梳理后发现,这种巨大偏差背后有几种常见原因。有的论文直接把别人论文里的数字复制粘贴过来,却没有说明那个数字是在什么条件下测出来的;有的论文重新测试了基准模型,但用的测试配置比原来论文更简陋,得出更低的分数,然后和自己新模型的高分数放在一张表里对比,显得自己的模型"提升"很大;还有涉及大语言模型的测试,因为用了不同的提示语(prompt)、不同版本的API,结果天差地别。
三、152篇论文,401个测试集——却没有一个共同标准
分数不一致,只是问题的冰山一角。更深层的问题在于:这个领域根本没有形成共同的"考试题目"。
这就好比要比较不同学校的学生哪个更优秀,但每所学校都给学生出了完全不同的考卷,有的考数学,有的考语文,有的考体育,而且大部分题目只有一所学校在用。这种情况下,你根本无法比较。
152篇论文总共用了401个不同的测试集。使用最广泛的三个测试集——EuroSAT、NWPU-RESISC45和AID——加在一起,也只覆盖了所有测试实验的10.6%。剩下将近90%的测试,散落在398个五花八门的测试集上,其中大多数只在一两篇论文里出现过。
用统计学中衡量"不均等程度"的吉尼系数来描述这种分散状况:0表示完全均等,1表示极度集中。这批论文的吉尼系数是0.51——这说明测试集的使用高度分散,没有形成明显的共识。
更令人担忧的是,这种分散状况没有随时间改善。研究团队按年份统计,发现2023年之后,吉尼系数并没有稳步上升(向集中方向靠拢),单独出现在一篇论文里的测试集数量,反而从2022年的13个增长到了2025年的98个。换句话说,这个领域不仅没有在收敛,分散程度还在加剧。
在152篇论文中,有35%的论文,也就是超过三分之一的研究,和领域内最常用的前10个测试集完全没有交集——它们测试的内容,和绝大多数同行完全不同。
四、39%的论文连模型文件都不公开
如果前面的问题还只是"比较方法不统一",下面这个问题就更根本了:很多论文根本没有把自己的模型分享出来。
研究团队统计发现,在这152篇论文中,有39%的论文没有公开任何模型权重文件。所谓"模型权重",就是模型训练完成后所有参数的具体数值,可以理解为模型的"灵魂"。没有这个文件,其他研究者就无法直接使用这个模型,无法验证论文中的数据是否正确,也无法在此基础上继续研究。
还有另外19%的论文虽然公开了代码,但没有公开训练好的模型文件。这意味着如果其他人想重现这个模型,他们必须从头开始、花费大量的时间和计算资源重新训练,而这还必须建立在拥有相同数量和质量的训练数据的前提下。
因此,实际上有将近六成的论文,其他研究者无法直接验证或复用其研究成果。这与这类模型被称为"基础模型"的初衷背道而驰——一个基础模型,如果无法被他人拿来用,那"基础"从何谈起?
五、预训练数据各自为政,没有人在同等条件下做比较
还有第三个问题,也许是最难解决的一个:当一篇论文声称"我的新模型比旧模型提升了X个百分点"时,这个提升究竟来自哪里?
训练一个地理空间基础模型,有三个关键的变量:一是用什么数据来预训练(就像在考试前刷了什么题库),二是模型的结构设计(就像大脑的神经连接方式),三是训练算法(就像学习方法)。如果一篇论文同时改变了这三个变量,你根本无法判断是哪个变化带来了改进。
研究团队统计了126篇明确说明了预训练数据的论文,发现它们一共用了87种不同的预训练数据集。其中使用最广泛的一个叫做MillionAID,也只有9篇论文使用,占总数的不到6%。
更关键的是,研究团队计算了每篇论文的完整预训练数据配方——也就是它用了哪些数据集的组合。结果发现,在126篇论文中,只有32篇(约25%)的预训练数据配方和至少另一篇论文完全相同。其余的94篇论文,每一篇用的都是独一无二的数据组合,没有任何其他论文在相同条件下做过实验。
这就好比一百多位厨师每人做了一道菜,然后互相声称自己的菜最好吃——但每个人用的食材都不一样,做法也不一样,甚至连测评的标准都不统一。你根本无法判断,是食材好、还是做法好、还是某位厨师天赋异禀。
已有研究表明,不同的预训练数据集带来的性能差异,有时候比模型结构改进带来的差异还要大。但在绝大多数论文里,这两个因素是混在一起的,没有被区分开来。
六、这不是某个人的错,而是整个领域的协调失败
面对这些问题,研究团队特别强调:这不是任何一个研究组的错。这是一个系统性的协调失败——因为没有人制定标准,所以每个人都用自己认为合理的方式做研究;而正因为每个人都用自己的方式,整个领域的研究成果就变得无法横向比较。
这篇论文的作者们也坦承,他们自己也是"问题的一部分"——他们发表的论文,也曾经贡献过这些混乱。
这种问题在其他人工智能领域也曾经出现过,但已经有了比较成熟的解决方案。比如大语言模型领域,有一套叫做lm-evaluation-harness的开源工具,任何人用任何模型,都可以跑一套统一的标准测试,结果可以直接比较。著名的"开放大语言模型排行榜"就是基于这套工具建立的,每个进榜的模型都经过了完全相同的测试流程。在计算机视觉领域,也有类似的VTAB基准测试体系。
但地理空间基础模型领域目前缺少这样的东西。现有的工具,比如GEO-Bench、PANGAEA、FoMo-Bench等,更多是数据集合和代码库,而不是真正意义上的标准化评估框架——它们没有版本管控的测试协议,没有自动提交验证机制,也没有一个中心化的平台让所有人用同样的流程提交结果。
七、六条可操作的建议,让领域走向可信
研究团队没有只是批评,他们还提出了六条具体的改进建议。
第一条关于模型公开:凡是声称要被他人使用的预训练模型,都应该在论文正式发表时附上可下载的模型文件,并且标明使用许可协议。如果由于数据授权等原因无法公开,也应该明确说明原因,而不是悄悄地什么都不放。
第二条关于测试统一:每一篇做模型比较的论文,都应该在一套共同认可的核心测试集上汇报结果,然后再根据自己论文的特定主题补充额外的测试。这样至少有一个公共的"参考坐标系"供读者比较。
第三条关于透明标注:每一个出现在结果表格里的基准数据,都应该标明它是从别的论文直接复制过来的,还是作者自己重新测试的。如果是复制,要注明来源;如果是重测,要说明测试配置。这一条规则简单直接,却能大大减少误导性的数字。
第四条关于误差汇报:对于核心比较结果,论文应当汇报多次重复实验的平均值和标准差,而不是只报一次运行的结果。如果因为成本太高无法重复,也要明确说明。
第五条关于构建评估平台:地理空间AI领域需要一个中立的第三方评估框架,有版本控制的测试协议,有自动验证提交的机制,任何人都可以用同一套流程测试自己的模型。这是解决跨论文比较混乱问题的根本途径。
第六条关于控制变量:如果一篇论文同时改变了模型结构和预训练数据,那必须有至少一组对照实验,固定其中一个变量,只改变另一个,才能让读者判断到底是哪个变化带来了改进。否则,那个"提升"就像一道没有注明成分的配方,无法复制,也无法信任。
研究团队还为论文审稿人提供了一份检查清单:审稿人在评审地理空间基础模型论文时,可以对照这六条建议逐一检查,判断哪些缺失会影响论文核心论点的可信度。
归根结底,这篇论文想说的不是"这些模型都没用",而是"我们现在根本没有足够的共同基础来判断哪个有用、哪个更有用"。这对于一个在灾难响应、粮食安全监测、土地变化追踪等高风险领域有实际应用的技术方向来说,是一个不容忽视的问题。
说到底,这不是一个高深的技术问题,而是一个协调问题——就像一群运动员都在练习不同的运动、用不同的规则参加比赛,然后互相声称自己是世界冠军。要知道谁是真正最强的,第一步是先统一比赛规则。研究团队已经把这个问题清晰地摆在了桌面上,并且提供了切实可行的解决路径。接下来,就看这个领域的研究者、期刊编辑、会议组委会能否形成合力,一起把这些标准落地实施。有兴趣深入了解这项研究全部细节的读者,可以通过arXiv编号2605.12678找到原文,研究团队还在GitHub上公开了全部152篇论文的数据库、提取代码和分析脚本,地址为github.com/taylor-geospatial/gfm-leaderboard。
Q&A
Q1:地理空间基础模型领域为什么会出现同一个模型测出差距56分的情况?
A:主要原因是不同论文在测试时采用了不同的配置,比如优化器的选择、学习率设置、图像裁剪尺寸等关键细节,但这些差异大多没有在论文中明确说明。此外,有些论文直接复制了其他论文的数字,但两者实际上用的是不同条件,却被放在同一张比较表里,让读者误以为是同等条件下的对比。
Q2:地理空间基础模型评估混乱的问题和大语言模型领域相比,差距在哪里?
A:大语言模型领域已经有了统一的评估工具,比如lm-evaluation-harness,任何模型都可以用同一套流程测试,结果可以直接放在同一个排行榜上比较。地理空间基础模型领域目前只有一些数据集合和示例代码库,没有版本控制的测试协议,没有自动提交验证机制,也没有统一的排行榜平台,本质上每个研究团队还在自说自话。
Q3:论文中提到的六条建议里,哪一条是现在研究人员就可以立刻执行的?
A:标注结果来源这条建议最容易立即执行,也就是在结果表格里注明每一行数据是作者自己重新测试的,还是从别的论文直接复制的,如果是复制还需注明来源论文和对应的测试配置。这不需要额外的计算资源,只需要在写论文时养成透明汇报的习惯,就能大幅提升结果的可信度和可比较性。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。