
这项由哈尔滨工业大学(深圳)研究团队完成的研究,以预印本形式发布于2026年5月,编号为arXiv:2605.01371,有兴趣深入了解的读者可以通过该编号查询完整论文。
每当听说山地搜救的新闻,大多数人脑海里浮现的画面大概是这样的:救援队员背着沉重的装备,在陡峭的山坡上一寸一寸地搜索,同时无人机在空中来回飞,把实时画面传回地面,再由人工判断哪里可能有幸存者。这个过程费时费力,而且效果高度依赖操作员的经验和判断力。
那么,有没有可能让无人机自己"动脑子"?不只是飞来飞去拍视频,而是真正理解任务、发现线索、推理分析,最终自主判断出失踪者可能在哪里?
这正是这支研究团队试图回答的问题。他们提出了一个全新的任务概念,叫做"具身搜救"(Embodied Search and Rescue,简称ESAR),并围绕这个概念构建了一套完整的评测平台,命名为ESARBench。这是学术界第一个专门为这类"会思考的无人机"设计的搜救评测基准。
---
一、为什么现有的无人机搜救系统不够用
要理解这项研究的价值,先得搞清楚现在的无人机搜救到底卡在哪里。
现有的无人机搜救系统,基本上遵循一套固定套路:用摄像头或传感器扫描地面,识别出可疑目标(比如人的轮廓或体温信号),然后按照预设的路线飞行。这套方法有两个根本性的局限。
第一个局限在于,这些系统只会"看",不会"想"。就好比你让一个人去找丢失的钥匙,他只会低头盯着地板找,却不会想"上次在哪里脱外套?钥匙是不是掉在沙发缝里?"现有无人机不具备这种推理能力,它不懂得根据失踪者的行为习惯、地形特征、天气状况来判断人可能在哪里,只会机械地扫描。
第二个局限在于,现有无人机需要"喂"给它非常精确的指令。比如"向东飞200米,悬停,扫描"。但真实的搜救指令完全不是这种风格。家属或者救援队长告诉你的,往往是"他昨天下午三点还在登山口,说要去山顶扎营,结果今早没下来"——这是高度语义化的、需要推理的信息,而不是可以直接执行的飞行坐标。
此前的学术研究也确实在往"让无人机理解语言"的方向努力,比如"空中视觉语言导航"(Aerial Vision Language Navigation)就是让无人机按照语言描述飞行。但这类研究的问题是,它们给无人机的指令依然是一步步、非常细化的操作描述,比如"向左转,看到红色建筑就停下",这跟真实搜救场景相距甚远。真实场景里,无人机必须自主探索、自主决策,而不是被人牵着手一步步走。
这两个根本性的缺口,就是这支团队要填补的。
---
二、"具身搜救"是一个什么样的新任务
研究团队给无人机设计的新任务,可以用一个侦探故事来理解。
案件开始时,侦探得到的信息非常有限:某人昨天下午在某条河边被最后看到,据说他一直在往山上走,已经很长时间了。侦探必须根据这条线索,决定从哪里开始搜查。他在路上会发现各种物件——一顶帐篷、一个背包——这些都是新线索,必须实时更新他的判断,调整搜索方向。最终,他要锁定目标所在的精确位置,并汇报三维坐标。
这正是ESAR任务的逻辑。无人机在任务开始时,会收到一段文字描述,比如"目标人数1人,最后在河边被发现,已向山上行走很长时间",同时知道当前时间、天气状况和自己的起始位置。此后,无人机必须自主飞行探索,用摄像头持续观察地面,识别各种"线索物品"——帐篷、背包、篝火、衣物、照明弹、水瓶等等,并根据这些线索不断更新对失踪者位置的判断。最终成功定位失踪者,给出三维坐标。
这个任务有一个核心公式来描述无人机的决策过程:在每一个时刻,无人机要根据当前看到的画面、自己记住的状态、收到的文字任务描述,以及过去的行动历史,同时输出两件事——下一步飞行动作,以及对新发现线索的描述和定位。这两件事要同时完成,缺一不可。
成功定位失踪者的判定标准也很具体:无人机预测的位置坐标,必须与真实坐标之间的误差不超过一个预设的阈值。此外,无人机发现线索的能力也有专门的量化指标:用发现的真实线索数量除以环境中全部真实线索的数量,得到一个"线索召回率"。
---
三、这套"训练场"是怎么建起来的
有了任务定义,还需要一个真实可靠的训练和测试环境。现有的大多数无人机仿真平台,要么场景太简单,要么用的是老版本渲染引擎,视觉效果跟真实世界差距太大。一旦在仿真里训练好的无人机被放到真实世界,往往表现大幅下降。
研究团队选择了两套工具的组合:Unreal Engine 5(UE5)负责高保真视觉渲染,让仿真画面尽可能接近真实摄像头拍到的样子;AirSim负责模拟无人机的飞行物理,让无人机在仿真里的飞行动力学和现实一致。
更重要的是,这四个场景都不是凭空想象的,而是直接照着中国四个真实地区的卫星图像和数字高程模型(DEM)数据建造的。数字高程模型可以理解为一张记录了每个地点海拔高度的精密地图,有了它,就能在仿真软件里"雕刻"出和真实地形一模一样的山川地貌。
这四个真实区域,都是在现实中发生过大量搜救事故的地方。第一个是秦岭鳌太线,中国最著名的徒步路线之一,穿越无人区,气候极端多变,自2012年起至少58人在此失踪或遇难,仿真还原的是其中"2800营地"附近的2平方公里区域。第二个是新疆罗布泊,干涸的盐湖,常年干旱并频发沙尘暴,历史上多次发生科考探险事故,仿真区域以探险家余纯顺的墓地为中心,覆盖5乘以5平方公里的范围,是四个场景中最大的。第三个是K2峰,世界第二高峰,极端低温、强风和高频雪崩使它成为最危险的山峰之一,自1954年以来已记录92例遇难,死亡率约20%,仿真区域覆盖顶峰附近2乘以2平方公里。第四个是深圳附近的大鹏半岛,山丘与海岸并存,虽然靠近城市但未开发区域事故频发,仿真区域是望郎归附近的2乘以2平方公里。
仿真平台还支持13种不同天气类型,并且在特定天气条件下,地形会发生对应的物理变化——下雪会堆积积雪,沙尘暴会覆盖沙尘,地面会出现水坑。这让仿真场景真正变成了一个会"变脸"的考场,而不是一成不变的静态背景。无人机还配备了一整套传感器:惯性测量单元、GPS、激光雷达,以及多角度RGB摄像头和深度摄像头。
---
四、600道考题是怎么出的
光有场景还不够,还需要一套科学设计的题目库。研究团队设计了一个三层结构来生成任务:事件、快照、任务。
"事件"指的是一个完整的真实搜救案例,它在时间上是连续的,涉及人物从某个位置逐渐移动。"快照"是把这个连续事件在某个特定时间点切断,把那个瞬间的人和物品的空间位置固定下来——相当于给正在发展中的案件拍了一张静止的照片。"任务"则是在某个快照的基础上,随机变换天气、时间和无人机的出发位置,从而生成多个不同的具体测试题。
整个数据集由12个真实事件延伸出60个快照,再扩展为600道独立任务。其中有几个真实事件特别值得描述,因为它们直接揭示了这套评测背后真实的人类悲剧。
2021年9月25日,一名叫吴的徒步者开始走鳌太线。三天后在下山途中受伤,他与队友约定原地等待救援。但几天后,他却意外地向山顶方向攀登,结果与救援队错过。10月3日被另一名徒步者发现时,在第二名徒步者离开求援期间,吴因失温去世。1996年6月11日,著名探险家余纯顺独行穿越罗布泊,途中遭遇严重沙尘暴被迫偏离计划路线,无法抵达预先存放补给的位置,最终在一处岔路口因脱水和中暑遇难。1986年6月20日,五名登山者成功登顶K2后下撤,遭遇强烈暴风雪,三人迅速撤到安全位置,另外两人在风暴中迷失方向,最终因坠落身亡。2025年10月16日,一名叫钟的徒步者在没有专业装备的情况下进入大鹏半岛未开发区域,运动手表数据显示途中疑遭野生动物袭击,随后下撤至海岸线,被发现时已遇难,死因不明。
这些真实案例不仅仅是情感上的背景,它们的事件发展逻辑、物品分布方式、人物行动轨迹,都直接影响了仿真环境中线索的放置逻辑。帐篷、背包、篝火、遗弃的衣物、信号弹——这些线索的位置,是依照真实案例中的现场信息来设定的,而不是随机摆放的。
这600道任务还按照难度分成四个等级:简单、中等、困难和极限。难度的计算方式非常系统:起点与目标之间的平均距离会给出一到四分(以116.6米、230.3米、373.6米为分界),天气状况会额外加分(晴天和多云零分,雨雪加一分,沙尘暴和浓雾加三分),照明条件会加分(白天零分,黄昏加一分,夜间加两分),受害者人数直接加等量的分,而某些强力线索的存在则会减分——帐篷的存在减一分,篝火减两分,照明弹减三分,因为这些线索大大降低了搜索难度。把所有维度的分数加起来,三分以下是简单,三到五分是中等,五到七分是困难,七分以上是极限。
---
五、怎么评分:四把尺子丈量无人机的能力
评测一个"会思考的无人机",需要比评测普通导航系统复杂得多的评分体系。研究团队设计了四个相互补充的指标,每一个都像一把不同的尺子,量不同的维度。
第一把尺子叫"成功率"(SR),最直接:无人机成功定位到的受害者数量除以环境中受害者总数。为了避免无人机报告多个重叠位置来"刷"成功次数,研究团队使用了一个叫做"匈牙利算法"的数学工具,强制做到预测位置和真实位置之间的最优一一对应匹配,只有在对应匹配后距离也在阈值之内的,才算成功。
第二把尺子叫"时间加权成功率"(TSR),在成功率的基础上考虑时间效率。公式是成功率乘以一个时间系数:如果你用了最大允许时间的一半,那时间系数就是0.5,总分大打折扣。这意味着一台找到了人但花了太长时间的无人机,得分会远低于又快又准的无人机。
第三把尺子叫"线索发现得分"(CDS),专门衡量无人机发现和识别线索的能力,这把尺子本身也有两层。第一层只要求空间位置正确,即无人机报告线索位置与真实线索位置之间的距离小于阈值。第二层要求更严格,不仅位置要对,还要让一个大语言模型来判断无人机描述的线索类型和真实类型是否语义匹配——比如无人机说"一个红色的包",而真实线索是"背包",大语言模型会判断这两者在语义上是同一物品,算作匹配成功。最终CDS得分是这两层各占一半权重的平均值。
第四把尺子叫"救援得分"(RS),是一个综合性的总分。它把安全完成任务的奖励、成功率、时间效率和线索发现能力都打包进来,各有权重:安全完成任务占10%,基础成功率占30%,时间效率占30%,线索发现能力占30%。一台撞墙的无人机会因为"不安全"而失去10%的基础分;一台找到人但线索发现能力很差的无人机,也会因为30%的线索权重而总分受影响。
---
六、让九种方法来考这道题,结果怎么样
研究团队把九种不同的方法放进ESARBench里测试,这些方法覆盖了从最基础到最先进的各种策略,形成了一个完整的能力对比图谱。
最简单的方法叫"随机策略",无人机完全随机选择飞行动作,不思考、不规划,纯粹靠运气——这是最低下限。接着是"边界探索"(FBE),这是一种经典的地图探索算法,无人机维护一张俯视地图,不断朝着已探索区域的边界前进,系统性地覆盖地面,但完全没有语义理解能力。第三种是"纯大语言模型控制",把摄像头画面和任务描述直接喂给大语言模型,让它直接输出飞行动作,没有任何辅助的地图或规划模块。
接下来的两种方法来自地面机器人导航领域。"语义探索"(SemExp)维护一张包含语义信息的俯视地图,识别场景中的物体类别,并根据与目标的语义相关性来选择探索方向,研究团队把它的核心策略改为零样本的边界启发式。"视觉语言前沿地图"(VLFM)则更进一步,用图文匹配给地图上的探索边界打分,优先朝着与任务描述最相关的区域飞。这两种方法都没有使用大语言模型。
第六种和第七种来自地面导航中使用大语言模型的方法。"NavGPT"把多角度摄像头的画面描述转换成文字,让大语言模型通过文字推理来选择行动,就像一个人靠听别人描述场景来决定怎么走,而不是自己看。"UniGoal"则构建场景图,通过目标物和场景图的匹配来引导搜索。
最后两种方法来自无人机特定的导航研究。"SPF"(See, Point, Fly)让视觉语言模型直接预测图像里应该飞往的方向点,再把这个图像坐标转换成实际的飞行指令,是一种"指哪飞哪"的直觉式控制。"APEX"是一种专门为无人机设计的目标导航方法,使用三维体素地图来同时建模吸引区域、探索前沿和障碍物,具备显式的三维空间记忆,是九种方法中对无人机特性适配最深的。
所有九种方法都接入了相同的AirSim接口,使用相同的四摄像头加YOLO-World目标检测模块来识别和上报线索与受害者,大语言模型统一使用Qwen3.5-Plus,确保对比公平。
---
七、考试结果出炉:发现了什么
测试结果在总体成功率上呈现出一个清晰的排名:APEX以13.89%的成功率排第一,VLFM以9.12%居中,FBE以8.19%位列基础方法中最强,而随机策略只有2.65%。在综合救援得分上,APEX以13.45分居首,SPF以13.12分紧随其后。
但这些数字背后隐藏了很多有意思的细节。
APEX和SPF这两种为无人机特别设计的方法,明显优于从地面机器人直接移植过来的NavGPT和UniGoal,后两者的综合得分只有10.89和9.27。这说明一个重要的道理:地面机器人的导航经验不能直接照搬到无人机上。无人机面对的是更大的场景尺度、真正的三维运动、完全不同的视角高度,以及以搜索为核心而非单纯到达目的地的任务逻辑。地面智能到空中,需要真正的"水土适应"。
在线索发现能力上,使用大语言模型的四种方法平均得到3.48分,而不使用大语言模型的两种物体导航方法平均只有2.70分。这说明语义理解和推理能力确实有助于识别线索——毕竟线索不只是一个"物体",它是在任务情境下有含义的证据,需要结合任务描述来理解。纯视觉匹配方法很难做到这一点。
然而,最强的两种方法APEX和SPF,在时间加权成功率上却出现了严重的短板——APEX只有0.87,SPF只有0.94,都是所有非随机方法中最低的之一。时间加权成功率低意味着什么?意味着它们找到人了,但花的时间太长,或者说它们在完成任务后不知道该停下来了,还在继续飞。这揭示了一个关键缺陷:这些方法缺乏判断"任务何时算完成了"的机制。在有多个受害者的场景中,它们不知道应该在哪个时间点宣布搜索结束,结果一直飞,白白浪费了时间。
还有一个更令人担忧的结果来自安全性测试。从图表中的数据来看,各种方法的无人机撞机率相当可观,部分方法高达35%甚至50%。与此同时,搜索时间越长的方法,安全飞行距离也越长,说明更强的探索能力往往伴随着更高的碰撞风险。安全性和搜索效率之间存在一个真实的矛盾:飞得越积极,越容易出事。这在真实搜救中是一个无法回避的核心挑战。
整体来看,所有方法的成功率都还很低,最好的也只有13.89%。这个数字非常直白地说明:ESARBench是一个真正困难的任务,现有方法还远远不够。
---
八、这套评测告诉了我们什么,未来路在哪里
这项研究的意义不只是提出了一个新概念,更重要的是它系统地暴露了当前技术的短板,并为未来的研究指出了清晰的方向。
从测试结果可以读出几个核心瓶颈。第一是空间记忆能力不足:无人机在飞行过程中很难维持一个完整、准确的三维环境模型,容易忘记已经搜索过哪些地方,或者无法有效利用之前发现的线索更新搜索策略。第二是空中适应性的缺失:地面机器人研究积累了大量智慧,但这些智慧不能直接用在无人机上,需要专门为三维空中视角重新设计感知和决策模块。第三是效率与安全的平衡问题:现有方法要么探索能力强但容易撞机,要么安全飞行但探索范围有限,两者之间的平衡至今没有很好的解决方案。
研究团队在论文中也描绘了这个领域未来的发展蓝图,涵盖四个维度的演进方向。在场景方面,从当前的开放非灾难性环境,逐步扩展到封闭的灾难现场,比如地震后的废墟或者火灾建筑内部。在传感器方面,从当前的RGB摄像头加激光雷达,扩展到热成像摄像头(能在黑暗中感知人体热量)、音频传感器(能听到呼救声),以及支持与幸存者交互的语音模块。在任务方面,从当前核心的"找到人"扩展到更多辅助任务,比如环境危险评估、精准空投补给物资、与地面人员协作沟通。在架构方面,从单架无人机扩展到多架无人机协同搜救,让不同的无人机分工合作,共同覆盖更大的区域。
这项研究在一台A100 GPU上跑了约140小时,消耗了约8G显存,这说明即便是现在的评测实验,也有相当高的计算门槛。随着模型和算法的改进,未来的研究会在这个基准上持续积累。
---
说到底,这项研究在做的事情,是把一个过去只存在于科幻场景里的想象——无人机自己找人——变成了一个可以被量化、被测试、被系统改进的工程问题。四个真实地形、十三种天气、六百道考题、四个评测维度,构成了一个尽可能接近真实世界的训练场。而测试结果清楚地告诉了我们:目前最好的系统,成功率也不足14%。这意味着这个问题还远没有被解决,还有巨大的空间等待着更好的答案。
当然,任何一项技术能从实验室走到真实的山野,中间还有漫长的路要走。但这套评测平台的价值,就在于它为这段路程设立了可以量化的里程碑。每一次某个新方法在ESARBench上提高了几个百分点,都意味着在真实的搜救场景中,多了一点点把人找回来的可能。
对这项研究感兴趣的读者,可以通过arXiv编号2605.01371找到完整论文,也可以访问研究团队公开的项目页面获取更多资料和代码。
---
Q&A
Q1:ESARBench中的任务难度是怎么划分的?
A:ESARBench的任务难度由一套量化评分决定,综合考虑五个维度:起点到目标的平均距离(越远越难,最高加四分)、天气条件(晴天零分,沙尘暴和浓雾加三分)、照明状况(白天零分,夜间加两分)、受害者人数(每多一人加一分),以及强力线索是否存在(有照明弹减三分,有篝火减两分,有帐篷减一分)。把这些分数加起来,三分以下是简单任务,三到五分是中等,五到七分是困难,七分以上是极限。
Q2:具身搜救任务和普通无人机目标检测任务有什么本质区别?
A:普通无人机目标检测任务只要求无人机"看到什么报告什么",是被动的、单次的识别行为,不需要推理也不需要决策。具身搜救任务(ESAR)则要求无人机主动探索未知环境、理解高层语义任务描述、发现并解读线索、实时更新搜索策略,最终定位受害者并输出三维坐标。换句话说,目标检测只是"眼睛"的工作,而ESAR需要无人机同时具备"眼睛"、"记忆"和"大脑"。
Q3:APEX方法为什么综合成绩最好,但时间效率分数却很低?
A:APEX使用三维体素地图对吸引区域、探索前沿和障碍物进行建模,这让它的空间感知能力在九种方法中最强,因此更容易找到受害者,成功率排第一。但APEX缺乏一个判断"任务何时完成"的机制,在多目标搜救场景中,它找到受害者后依然不知道应该停下来,继续在空中飞行,导致任务耗时大幅超出必要时间,时间加权成功率因此大幅缩水,只有0.87,是所有方法中较低的。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。