微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

没有人知道地理空间基础模型的真实水平——多所顶级研究机构联合揭露AI领域一个被忽视已久的系统性问题

地理空间AI遥感基础模型评估标准化

没有人知道地理空间基础模型的真实水平——多所顶级研究机构联合揭露AI领域一个被忽视已久的系统性问题

作者：科技行者

2026-05-25 10:45

分享至：

多所顶级机构联合审查152篇论文发现，地理空间基础模型领域存在测试标准混乱、数据不公开、结果无法比较等系统性问题，并提出六条改进建议。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-25 10:45 • 科技行者

这项由泰勒地理空间研究所、慕尼黑工业大学、微软AI公益研究实验室、艾伦人工智能研究所、向量研究所、卡尔顿大学、克拉克大学、不列颠哥伦比亚大学以及亚利桑那州立大学联合开展的研究，以预印本形式于2026年5月12日发表在arXiv平台，论文编号为arXiv:2605.12678。有兴趣深入了解的读者可通过该编号查询完整论文。

假设你是一位想要购买一台笔记本电脑的消费者，你在网上搜索了十几篇评测文章，每篇文章都声称某款电脑是"最强"或"最快"的，但当你仔细比对时，发现同一款电脑在不同评测中的跑分相差了将近一倍，有的文章甚至没有说明测试时用的是什么软件、什么设置。你根本无从判断，哪篇评测是可信的，哪款电脑才是真正适合你的。

这正是目前地理空间人工智能领域正在发生的事情。这篇论文的研究团队花了大量时间系统审查了152篇相关论文，然后得出了一个令人不安的结论：没有人真正知道，在所谓的"地理空间基础模型"这个领域里，哪个模型才是真正最好的。

一、什么是"地理空间基础模型"，为什么我们需要它

要理解这个问题的严重性，先要搞清楚这类模型是什么。

地球每天都在产生海量的卫星图像——农田的生长状态、洪水的蔓延范围、城市的扩张速度、森林的消退情况。处理这些图像，需要人工智能的帮助。以前，研究人员每做一个新任务，就要从头训练一个新模型，既费时又费钱。

后来，人工智能领域流行起一种新思路：先用大量数据训练一个"万能底座"，就像建一栋大楼先打好地基，然后无论是要建商场还是住宅，直接在这个地基上盖就好了，不需要每次都重新打地基。这类"万能底座"就叫做基础模型。在自然语言处理领域，GPT系列模型就是这样的例子；在图像领域，有CLIP、DINO等。

地理空间基础模型，就是专门为处理卫星图像、遥感数据而打造的这类"万能底座"。理论上，一个好的地理空间基础模型应该能够被迁移到各种任务上：判断农作物是否健康、识别建筑物是否被洪水淹没、追踪土地覆盖的变化等等。

这个方向的研究在过去几年间井喷式爆发。研究团队从2019年到2025年，梳理出了152篇自称在做"基础模型"的相关论文。然而，当他们想回答一个最基本的问题——"这些模型里，哪个最好？"——他们发现，这个问题根本无法从现有的论文记录中找到可靠答案。

二、同一个模型，两篇论文相差56分——这不是笔误

研究团队发现的最触目惊心的例子，是关于一个叫做Scale-MAE的模型的测试结果。

这个模型的研发团队曾在一个叫做NWPU-RESISC45的标准测试集上，测试该模型识别遥感图像场景的能力，并公布了一个准确率：89.6分（满分100分）。这个数字看起来相当不错。

然而，另一个研究小组用同样的Scale-MAE模型，在同样的NWPU-RESISC45测试集上，用他们理解的"同样的测试方法"，得出的结果是：33.0分。

同一个模型，同一个测试集，相差了整整56.6分。

你或许以为这是偶然的笔误或者极端个例。但研究团队系统性地检查了所有论文，在同一模型、同一测试集、同一测试类型的组合下，找到了301组可以跨论文比较的数据点。其中，有76组的差距超过5分，有46组的差距超过10分，还有20组的差距超过20分。整体来看，第90百分位的差距达到了12.7分——这意味着，在最"不一致"的那10%的比较中，误差超过了12分。

要知道，正常情况下，重复运行同一个测试，因为随机性造成的误差大约只有1分左右。56分、45分、30分的差距，绝对不是随机波动，而是测试条件存在了根本性的不一致。

研究团队梳理后发现，这种巨大偏差背后有几种常见原因。有的论文直接把别人论文里的数字复制粘贴过来，却没有说明那个数字是在什么条件下测出来的；有的论文重新测试了基准模型，但用的测试配置比原来论文更简陋，得出更低的分数，然后和自己新模型的高分数放在一张表里对比，显得自己的模型"提升"很大；还有涉及大语言模型的测试，因为用了不同的提示语（prompt）、不同版本的API，结果天差地别。

三、152篇论文，401个测试集——却没有一个共同标准

分数不一致，只是问题的冰山一角。更深层的问题在于：这个领域根本没有形成共同的"考试题目"。

这就好比要比较不同学校的学生哪个更优秀，但每所学校都给学生出了完全不同的考卷，有的考数学，有的考语文，有的考体育，而且大部分题目只有一所学校在用。这种情况下，你根本无法比较。

152篇论文总共用了401个不同的测试集。使用最广泛的三个测试集——EuroSAT、NWPU-RESISC45和AID——加在一起，也只覆盖了所有测试实验的10.6%。剩下将近90%的测试，散落在398个五花八门的测试集上，其中大多数只在一两篇论文里出现过。

用统计学中衡量"不均等程度"的吉尼系数来描述这种分散状况：0表示完全均等，1表示极度集中。这批论文的吉尼系数是0.51——这说明测试集的使用高度分散，没有形成明显的共识。

更令人担忧的是，这种分散状况没有随时间改善。研究团队按年份统计，发现2023年之后，吉尼系数并没有稳步上升（向集中方向靠拢），单独出现在一篇论文里的测试集数量，反而从2022年的13个增长到了2025年的98个。换句话说，这个领域不仅没有在收敛，分散程度还在加剧。

在152篇论文中，有35%的论文，也就是超过三分之一的研究，和领域内最常用的前10个测试集完全没有交集——它们测试的内容，和绝大多数同行完全不同。

四、39%的论文连模型文件都不公开

如果前面的问题还只是"比较方法不统一"，下面这个问题就更根本了：很多论文根本没有把自己的模型分享出来。

研究团队统计发现，在这152篇论文中，有39%的论文没有公开任何模型权重文件。所谓"模型权重"，就是模型训练完成后所有参数的具体数值，可以理解为模型的"灵魂"。没有这个文件，其他研究者就无法直接使用这个模型，无法验证论文中的数据是否正确，也无法在此基础上继续研究。

还有另外19%的论文虽然公开了代码，但没有公开训练好的模型文件。这意味着如果其他人想重现这个模型，他们必须从头开始、花费大量的时间和计算资源重新训练，而这还必须建立在拥有相同数量和质量的训练数据的前提下。

因此，实际上有将近六成的论文，其他研究者无法直接验证或复用其研究成果。这与这类模型被称为"基础模型"的初衷背道而驰——一个基础模型，如果无法被他人拿来用，那"基础"从何谈起？

五、预训练数据各自为政，没有人在同等条件下做比较

还有第三个问题，也许是最难解决的一个：当一篇论文声称"我的新模型比旧模型提升了X个百分点"时，这个提升究竟来自哪里？

训练一个地理空间基础模型，有三个关键的变量：一是用什么数据来预训练（就像在考试前刷了什么题库），二是模型的结构设计（就像大脑的神经连接方式），三是训练算法（就像学习方法）。如果一篇论文同时改变了这三个变量，你根本无法判断是哪个变化带来了改进。

研究团队统计了126篇明确说明了预训练数据的论文，发现它们一共用了87种不同的预训练数据集。其中使用最广泛的一个叫做MillionAID，也只有9篇论文使用，占总数的不到6%。

更关键的是，研究团队计算了每篇论文的完整预训练数据配方——也就是它用了哪些数据集的组合。结果发现，在126篇论文中，只有32篇（约25%）的预训练数据配方和至少另一篇论文完全相同。其余的94篇论文，每一篇用的都是独一无二的数据组合，没有任何其他论文在相同条件下做过实验。

这就好比一百多位厨师每人做了一道菜，然后互相声称自己的菜最好吃——但每个人用的食材都不一样，做法也不一样，甚至连测评的标准都不统一。你根本无法判断，是食材好、还是做法好、还是某位厨师天赋异禀。

已有研究表明，不同的预训练数据集带来的性能差异，有时候比模型结构改进带来的差异还要大。但在绝大多数论文里，这两个因素是混在一起的，没有被区分开来。

六、这不是某个人的错，而是整个领域的协调失败

面对这些问题，研究团队特别强调：这不是任何一个研究组的错。这是一个系统性的协调失败——因为没有人制定标准，所以每个人都用自己认为合理的方式做研究；而正因为每个人都用自己的方式，整个领域的研究成果就变得无法横向比较。

这篇论文的作者们也坦承，他们自己也是"问题的一部分"——他们发表的论文，也曾经贡献过这些混乱。

这种问题在其他人工智能领域也曾经出现过，但已经有了比较成熟的解决方案。比如大语言模型领域，有一套叫做lm-evaluation-harness的开源工具，任何人用任何模型，都可以跑一套统一的标准测试，结果可以直接比较。著名的"开放大语言模型排行榜"就是基于这套工具建立的，每个进榜的模型都经过了完全相同的测试流程。在计算机视觉领域，也有类似的VTAB基准测试体系。

但地理空间基础模型领域目前缺少这样的东西。现有的工具，比如GEO-Bench、PANGAEA、FoMo-Bench等，更多是数据集合和代码库，而不是真正意义上的标准化评估框架——它们没有版本管控的测试协议，没有自动提交验证机制，也没有一个中心化的平台让所有人用同样的流程提交结果。

七、六条可操作的建议，让领域走向可信

研究团队没有只是批评，他们还提出了六条具体的改进建议。

第一条关于模型公开：凡是声称要被他人使用的预训练模型，都应该在论文正式发表时附上可下载的模型文件，并且标明使用许可协议。如果由于数据授权等原因无法公开，也应该明确说明原因，而不是悄悄地什么都不放。

第二条关于测试统一：每一篇做模型比较的论文，都应该在一套共同认可的核心测试集上汇报结果，然后再根据自己论文的特定主题补充额外的测试。这样至少有一个公共的"参考坐标系"供读者比较。

第三条关于透明标注：每一个出现在结果表格里的基准数据，都应该标明它是从别的论文直接复制过来的，还是作者自己重新测试的。如果是复制，要注明来源；如果是重测，要说明测试配置。这一条规则简单直接，却能大大减少误导性的数字。

第四条关于误差汇报：对于核心比较结果，论文应当汇报多次重复实验的平均值和标准差，而不是只报一次运行的结果。如果因为成本太高无法重复，也要明确说明。

第五条关于构建评估平台：地理空间AI领域需要一个中立的第三方评估框架，有版本控制的测试协议，有自动验证提交的机制，任何人都可以用同一套流程测试自己的模型。这是解决跨论文比较混乱问题的根本途径。

第六条关于控制变量：如果一篇论文同时改变了模型结构和预训练数据，那必须有至少一组对照实验，固定其中一个变量，只改变另一个，才能让读者判断到底是哪个变化带来了改进。否则，那个"提升"就像一道没有注明成分的配方，无法复制，也无法信任。

研究团队还为论文审稿人提供了一份检查清单：审稿人在评审地理空间基础模型论文时，可以对照这六条建议逐一检查，判断哪些缺失会影响论文核心论点的可信度。

归根结底，这篇论文想说的不是"这些模型都没用"，而是"我们现在根本没有足够的共同基础来判断哪个有用、哪个更有用"。这对于一个在灾难响应、粮食安全监测、土地变化追踪等高风险领域有实际应用的技术方向来说，是一个不容忽视的问题。

说到底，这不是一个高深的技术问题，而是一个协调问题——就像一群运动员都在练习不同的运动、用不同的规则参加比赛，然后互相声称自己是世界冠军。要知道谁是真正最强的，第一步是先统一比赛规则。研究团队已经把这个问题清晰地摆在了桌面上，并且提供了切实可行的解决路径。接下来，就看这个领域的研究者、期刊编辑、会议组委会能否形成合力，一起把这些标准落地实施。有兴趣深入了解这项研究全部细节的读者，可以通过arXiv编号2605.12678找到原文，研究团队还在GitHub上公开了全部152篇论文的数据库、提取代码和分析脚本，地址为github.com/taylor-geospatial/gfm-leaderboard。

Q&A

Q1：地理空间基础模型领域为什么会出现同一个模型测出差距56分的情况？

A：主要原因是不同论文在测试时采用了不同的配置，比如优化器的选择、学习率设置、图像裁剪尺寸等关键细节，但这些差异大多没有在论文中明确说明。此外，有些论文直接复制了其他论文的数字，但两者实际上用的是不同条件，却被放在同一张比较表里，让读者误以为是同等条件下的对比。

Q2：地理空间基础模型评估混乱的问题和大语言模型领域相比，差距在哪里？

A：大语言模型领域已经有了统一的评估工具，比如lm-evaluation-harness，任何模型都可以用同一套流程测试，结果可以直接放在同一个排行榜上比较。地理空间基础模型领域目前只有一些数据集合和示例代码库，没有版本控制的测试协议，没有自动提交验证机制，也没有统一的排行榜平台，本质上每个研究团队还在自说自话。

Q3：论文中提到的六条建议里，哪一条是现在研究人员就可以立刻执行的？

A：标注结果来源这条建议最容易立即执行，也就是在结果表格里注明每一行数据是作者自己重新测试的，还是从别的论文直接复制的，如果是复制还需注明来源论文和对应的测试配置。这不需要额外的计算资源，只需要在写论文时养成透明汇报的习惯，就能大幅提升结果的可信度和可比较性。

地理空间AI遥感基础模型评估标准化

分享至