微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 无人机也能听懂人话了!台湾研究团队让飞行器变身智能助手

无人机也能听懂人话了!台湾研究团队让飞行器变身智能助手

2025-10-21 10:18
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-10-21 10:18 科技行者

这项由台湾阳明交通大学胡志尧、林扬森、李云娜、苏志海、李杰颖、蔡世瑞、林进阳、陈冠文等研究人员,以及台湾大学柯宗纬、刘育伦等学者共同完成的研究,发表于2025年韩国首尔举办的第九届机器人学习会议(CoRL 2025)。这项名为"See, Point, Fly"的研究成果已于2024年9月26日在arXiv平台发布,论文编号为arXiv:2509.22653v1。对这项突破性研究感兴趣的读者可以通过该编号查询完整论文内容。

当你对着无人机说"飞到那个穿绿衣服的人那里"或者"帮我找找需要帮助的人",它真的能听懂并且准确执行吗?听起来像科幻电影的情节,但台湾的研究团队已经让这个想法变成了现实。他们开发出一套革命性的无人机控制系统,让普通人可以用最自然的语言指挥无人机完成各种复杂任务,就像指挥一个聪明的飞行助手一样。

这个被称为"See, Point, Fly"(简称SPF)的系统最神奇的地方在于,它完全不需要任何专门的训练就能工作。传统的无人机控制系统就像一个只会特定技能的机器人,需要大量的数据训练才能学会新任务。而SPF系统更像是一个天生聪明的助手,它利用已经存在的人工智能视觉语言模型的强大能力,直接理解人类的指令并转化为飞行动作。

研究团队在模拟环境中测试了23种不同的任务,在真实世界中测试了11种任务,结果令人惊叹。SPF系统在模拟环境中达到了93.9%的成功率,在真实世界中达到了92.7%的成功率,远远超过了之前最好的方法。更重要的是,这个系统能够处理各种复杂情况,包括避开障碍物、追踪移动目标、执行需要推理的任务,甚至能够理解"找个舒适的椅子避雨"这样抽象的指令。

一、从"看图说话"到"指哪飞哪"的巧妙转换

要理解SPF系统的工作原理,我们可以把它想象成一个非常聪明的导航助手。当你开车时,导航软件会告诉你"前方500米右转",但SPF系统的工作方式更加直观和智能。

传统的无人机控制方法就像是让一个不会开车的人直接学习复杂的驾驶技巧。研究人员需要收集大量的飞行数据,然后训练系统学会在特定情况下应该如何操作。这种方法的问题是,一旦遇到训练时没见过的情况,系统就会手足无措,就像一个只会在高速公路上开车的司机突然被要求在山路上行驶一样。

SPF系统采用了一种完全不同的思路。研究团队发现,与其让系统直接学习复杂的三维飞行控制,不如让它做一件更简单的事情:在照片上指点位置。这就像是把复杂的立体导航问题转化为在地图上标记目标点一样简单。

具体来说,当无人机的摄像头拍摄到周围环境时,SPF系统会分析这张图片和用户的语言指令,然后在图片上标出一个目标点,就像用手指在照片上指出"就是这里"一样。同时,系统还会估算到达这个目标点需要飞行的距离。有了这两个信息,系统就能计算出无人机应该朝哪个方向飞行,飞行多远。

这种方法的巧妙之处在于,它充分利用了现有人工智能模型在图像理解和语言理解方面的强大能力。这些模型已经通过互联网上的海量数据学会了理解各种场景和语言描述,SPF系统只需要借用这些能力,然后添加一个简单的几何转换步骤,就能实现精确的无人机控制。

二、让无人机变身贴心助手的三步法

SPF系统的工作流程可以比作一个经验丰富的向导为游客规划路线的过程。当游客说"我想去那座美丽的教堂"时,向导会先观察周围环境,找到教堂的位置,然后规划一条安全的路线,最后一步步引导游客到达目的地。

第一步是"理解和定位"。当用户给出指令时,比如"飞到那个红色的起重机",SPF系统会同时分析无人机摄像头拍摄的实时画面和用户的语言指令。系统内置的人工智能模型会在图像中识别出红色起重机的位置,并在图片上标记出一个精确的像素坐标点。这个过程就像是一个眼力极好的助手能够立即在复杂的景象中找到你要找的目标。

更令人印象深刻的是,系统还具备障碍物感知能力。如果指令是"飞到那个人那里,但不要撞到路上的锥形桶",系统不仅会标记出目标人物的位置,还会识别出路径上的障碍物,并规划一条绕开障碍物的安全路线。

第二步是"智能距离调节"。这是SPF系统的一个创新特色。传统系统往往采用固定的飞行步长,就像一个机械的机器人总是迈着相同大小的步子。但SPF系统更像是一个有经验的飞行员,会根据具体情况调整飞行距离。

当目标距离较远且周围空间开阔时,系统会让无人机采用较大的飞行步长,快速接近目标。当接近目标或者周围环境复杂时,系统会自动切换到小步长模式,确保精确和安全。这种自适应调节机制让无人机的飞行既高效又安全,就像一个熟练的司机会在高速公路上加速,在拥挤的市区减速一样。

第三步是"精确控制执行"。系统将二维图像上的目标点和估算的飞行距离转换为三维空间中的具体飞行指令。这个转换过程使用了相机的几何参数,就像是根据照片的拍摄角度和距离信息推算出真实物体的空间位置。

转换完成后,系统会将三维移动指令分解为无人机能够理解的基本控制命令:偏航(左右转向)、俯仰(前后移动)和油门(上下升降)。这些命令会被精确地计算出执行时间和速度,然后按顺序发送给无人机执行。

整个过程是循环进行的。无人机执行完一个动作后,会立即拍摄新的画面,系统重新分析当前情况并规划下一步动作。这种闭环控制方式让无人机能够实时适应环境变化,甚至能够追踪移动的目标。

三、在虚拟世界和现实世界中的精彩表现

为了验证SPF系统的实际效果,研究团队设计了一系列全面的测试,就像是为一个新司机安排从简单到复杂的各种驾驶考试。测试分为两个主要环境:高度逼真的模拟环境和真实世界环境。

在模拟环境中,研究团队使用了专业的无人机竞速联盟(DRL)模拟器。这个模拟器以其高度的真实性而闻名,能够准确模拟无人机的物理特性和各种环境条件。研究团队设计了23种不同类型的任务,涵盖了从简单导航到复杂推理的各个方面。

基础导航任务就像是让无人机完成"飞到红色起重机"或"飞到白色建筑"这样的直接指令。这类任务测试的是系统的基本目标识别和飞行能力。结果显示,SPF系统在所有25次测试中都成功完成了任务,达到了100%的成功率。

障碍物规避任务则更加复杂,相当于在拥挤的环境中安全导航。比如"飞到白色尖塔,但要避开路上的障碍物"或"穿过前方的隧道而不撞墙"。在这类任务中,SPF系统展现出了出色的空间推理能力,成功率达到92%。相比之下,其他方法的成功率只有16%或更低。

长距离任务考验的是系统的持续规划能力,就像是完成"先飞过第一个门,再飞过第二个门"或"绕过前面的树,然后飞上山坡"这样的多步骤指令。这类任务需要系统能够记住之前的行动并规划后续步骤。SPF系统在这方面也表现出色,成功率同样达到92%。

最具挑战性的是推理任务,这些任务需要系统理解抽象概念并做出判断。比如"飞到可以被人驾驶的物体"(答案是汽车)或"扫描这个城市区域"(需要系统理解什么是有效的扫描模式)。即使在这些高难度任务中,SPF系统仍然达到了93%的成功率。

在真实世界测试中,研究团队使用了大疆Tello EDU无人机,在各种室内外环境中进行了11种不同任务的测试。真实世界的挑战更大,因为存在光照变化、风力干扰、复杂背景等模拟环境中难以完全复制的因素。

令人惊喜的是,SPF系统在真实世界中的表现甚至更加出色,总体成功率达到92.7%。在一些特定任务中,比如基础导航和推理任务,系统达到了100%的成功率。即使是最困难的障碍物规避任务,成功率也达到了70%。

特别值得一提的是动态目标跟踪任务。研究团队测试了"跟着穿绿衣服的人"这样的指令,无人机需要识别特定的人并持续跟踪其移动。这种任务在传统系统中几乎不可能实现,但SPF系统凭借其闭环控制机制成功完成了所有测试。

四、与传统方法的全面对比分析

为了证明SPF系统的优越性,研究团队将其与三种代表性的现有方法进行了详细对比,就像是在同一条赛道上比较不同汽车的性能。

第一个对比对象是TypeFly系统,这是一个基于预定义技能库的方法。TypeFly的工作方式就像是一个只会有限几种动作的机器人。它使用GPT-4来理解用户指令,然后从预先设定的动作库中选择合适的技能来执行。这种方法的问题是灵活性严重不足。当遇到技能库中没有的动作时,系统就完全无法应对。

在测试中,TypeFly的表现令人失望。在模拟环境的125个测试中,它只成功完成了1个,成功率仅为0.9%。在真实世界测试中,情况稍有改善,但成功率也只有23.6%。这个结果清楚地显示了预定义技能库方法的局限性。

第二个对比对象是PIVOT系统,这是一个基于候选点选择的方法。PIVOT的工作方式是先在图像上生成多个可能的目标点,然后让人工智能模型从中选择最合适的一个。这种方法虽然比TypeFly更灵活,但仍然存在效率和准确性问题。

PIVOT在模拟环境中的成功率为28.7%,在真实世界中只有5.5%。这个结果表明,虽然候选点选择方法在理论上可行,但在实际应用中面临着显著的挑战。主要问题是候选点的生成和选择过程既耗时又容易出错。

第三个对比对象是"纯文本VLM"方法,这是研究团队设计的一个对照实验。这种方法直接让人工智能模型以文字形式输出飞行指令,比如"向前飞行2米,然后左转30度"。这种方法的问题是,文字描述很难精确表达复杂的空间动作,而且人工智能模型在生成精确数值方面并不可靠。

结果证实了研究团队的预期,纯文本方法的成功率只有7%,远低于SPF系统的表现。这个对比清楚地证明了将动作预测转化为二维空间定位任务的优越性。

在完成时间方面,SPF系统也展现出明显优势。在那些所有方法都能成功完成的任务中,SPF系统的平均完成时间比其他方法快30-50%。这主要得益于其自适应距离调节机制,让无人机能够根据情况调整飞行速度。

更重要的是,SPF系统展现出了出色的通用性。研究团队测试了多种不同的人工智能模型作为系统后端,包括Gemini 2.5 Pro、Gemini 2.0 Flash、GPT-4.1、Claude 3.7 Sonnet和Llama 4 Maverick。结果显示,即使是性能相对较弱的模型,SPF系统仍能达到87%以上的成功率,而最强的模型能够达到100%的成功率。

五、系统设计的精妙细节解析

SPF系统的成功不仅在于其整体架构的巧妙,更在于许多精心设计的技术细节。这些细节就像是一台精密手表中的各个齿轮,每一个都发挥着关键作用。

自适应距离调节机制是系统的一个重要创新。传统方法通常使用固定的移动步长,就像一个机器人总是迈着相同大小的步子。但这种方法在实际应用中会遇到问题:步长太小会导致效率低下,步长太大又可能导致精度不足或安全问题。

SPF系统采用了一个非线性的距离调节公式。当人工智能模型预测需要较大移动距离时(通常意味着目标较远或环境开阔),系统会相应增大实际的飞行步长。当预测距离较小时(通常意味着接近目标或环境复杂),系统会采用更小、更谨慎的步长。

这个调节机制的参数经过了精心调优。研究团队发现,使用1.8的非线性指数能够在效率和安全性之间达到最佳平衡。最小步长设定为0.1米,确保即使在最谨慎的情况下,无人机也能持续前进而不会陷入停滞。

二维到三维的坐标转换是另一个技术关键点。当人工智能模型在图像上标记出目标点时,这个点只是一个二维像素坐标。要将其转换为无人机能够理解的三维飞行指令,需要考虑相机的视场角、焦距等参数。

SPF系统使用了针孔相机模型来完成这个转换。简单来说,就是根据目标点在图像中的位置,计算出它在真实三维空间中相对于无人机的方向。这个计算需要考虑相机的水平和垂直视场角,确保转换的准确性。

控制指令的分解和执行也体现了系统设计的精细程度。三维移动向量需要被分解为无人机的基本控制指令:偏航(控制转向)、俯仰(控制前后移动)和油门(控制升降)。每个控制指令都需要计算出具体的速度和持续时间。

系统采用了异步执行机制,人工智能模型的推理过程以大约0.3到1赫兹的频率运行,而底层控制指令以大约10赫兹的频率执行。这种设计确保了即使人工智能推理需要较长时间(通常1.5到3秒),无人机仍能保持稳定的飞行状态。

障碍物检测和规避是系统的另一个亮点。与传统方法需要专门的障碍物检测器不同,SPF系统直接利用人工智能模型的视觉理解能力来识别障碍物。当启用障碍物规避模式时,模型会同时输出目标位置和障碍物的边界框信息。

这种集成式的障碍物检测方法有几个优势。首先,它不需要额外的硬件或软件组件,降低了系统复杂度。其次,它能够识别任意类型的障碍物,不局限于预定义的物体类别。最后,它的响应速度更快,因为目标检测和障碍物检测是同时进行的。

六、深度实验验证与性能分析

为了全面验证SPF系统的性能,研究团队设计了一系列深入的实验,就像是对一款新车进行全方位的路试。这些实验不仅测试了系统的基本功能,还深入分析了各个组件的贡献度。

首先是结构化提示方法的验证实验。研究团队比较了三种不同的人工智能交互方式:SPF的二维坐标标记方法、传统的文本生成方法,以及PIVOT的候选点选择方法。结果显示,SPF的方法在导航任务中达到100%成功率,而文本生成方法只有7%,候选点选择方法为40%。

这个对比清楚地证明了将复杂的三维控制问题转化为简单的二维标记任务的有效性。文本生成方法失败的主要原因是人工智能模型难以准确生成精确的数值控制指令,而候选点选择方法的问题在于候选点生成的质量和选择过程的可靠性。

不同人工智能模型的适应性测试也产生了有趣的结果。研究团队发现,即使是相对较弱的模型(如Gemini 2.0 Flash-Lite),在SPF框架下仍能达到87%的成功率。而更强大的模型(如Gemini 2.5 Pro、GPT-4.1)则能够达到100%的成功率。

这个结果表明,SPF系统的设计具有很好的模型无关性。系统的成功不依赖于特定的人工智能模型,而是得益于其整体架构的合理性。这种特性对于实际应用非常重要,因为它意味着系统可以随着人工智能技术的进步而自然升级。

自适应距离调节机制的效果验证是另一个重要实验。研究团队比较了使用固定步长和自适应步长的性能差异。在三个代表性任务中,自适应机制将平均完成时间从52.75秒减少到31.07秒,减少了约41%的时间,同时保持或提高了成功率。

具体来说,在"飞到锥形桶然后飞到下一个"的任务中,固定步长需要61秒,而自适应步长只需28秒。在"我渴了,找点能帮助我的东西"的推理任务中,自适应机制不仅将时间从50.25秒减少到35.20秒,还将成功率从80%提高到100%。

这些结果证明了自适应机制的双重价值:既提高了效率,又增强了可靠性。效率提升来自于在开阔环境中的快速移动,可靠性增强则来自于在复杂环境中的谨慎操作。

延迟分析是实际应用中的关键考虑因素。SPF系统的端到端延迟主要由人工智能模型的推理时间决定,通常在1.5到3秒之间。虽然这个延迟看起来较长,但对于大多数无人机应用来说是可以接受的,特别是考虑到系统的高准确性和通用性。

研究团队还分析了不同任务类型对系统性能的影响。结果显示,基础导航任务的成功率最高(接近100%),其次是长距离任务和搜索任务(约92%),最具挑战性的是障碍物规避任务(约70-92%,取决于环境复杂度)。

这种性能分布符合预期,因为障碍物规避需要更精确的空间推理和路径规划。但即使在最困难的情况下,SPF系统的表现仍然远超传统方法。

七、实际应用前景与技术影响

SPF系统的成功不仅是一个技术突破,更预示着无人机应用领域的重大变革。这种变革就像是从需要专业培训的复杂设备转向任何人都能轻松使用的智能工具。

在搜索救援领域,SPF系统展现出巨大潜力。传统的搜救无人机需要专业操作员,而且只能执行预编程的搜索模式。SPF系统让救援人员能够用自然语言指挥无人机,比如"搜索那片森林中需要帮助的人"或"检查那栋倒塌建筑的后面"。这种能力能够大大提高搜救效率,特别是在紧急情况下。

在农业应用中,农民可以用简单的指令让无人机完成各种任务:"检查那片玉米地的生长情况"、"找出看起来有病虫害的植物"、"测量那块田地的边界"。这种直观的交互方式让农业无人机的使用门槛大大降低,有助于精准农业技术的普及。

安防监控是另一个重要应用领域。保安人员可以指挥无人机"巡视停车场寻找可疑活动"或"跟踪那个穿红衣服的人"。相比传统的固定摄像头或需要手动控制的无人机,SPF系统提供了更灵活、更智能的监控解决方案。

在环境监测方面,研究人员可以用自然语言指挥无人机完成复杂的数据收集任务。比如"飞到那个污染源附近测量空气质量"或"跟踪那群迁徙的鸟类"。这种能力对于野生动物研究和环境保护工作具有重要价值。

物流配送领域也将受益于这项技术。快递员可以简单地告诉无人机"把这个包裹送到三楼阳台"或"找到那栋红色屋顶的房子"。虽然完全自动化的配送还需要解决更多技术和法规问题,但SPF系统为实现更智能的配送无人机奠定了基础。

教育和娱乐应用同样值得期待。学校可以使用配备SPF系统的无人机进行地理、生物等学科的实地教学。学生可以指挥无人机"飞到那座山峰拍摄地质结构"或"观察那个鸟巢的情况"。这种互动式学习方式能够大大增强学生的学习兴趣和理解深度。

从技术发展的角度来看,SPF系统代表了一种重要的设计理念转变。传统的机器人控制系统往往试图从零开始构建所有功能,而SPF系统巧妙地利用了现有人工智能模型的能力,通过合理的接口设计实现了复杂的控制功能。

这种"站在巨人肩膀上"的方法具有重要的启发意义。它表明,在人工智能技术快速发展的今天,系统设计者应该更多地考虑如何有效利用现有的强大模型,而不是重新发明轮子。这种思路可能会影响未来机器人技术的发展方向。

SPF系统还展示了多模态人工智能的强大潜力。通过同时处理视觉和语言信息,系统能够理解复杂的指令并做出合理的行动决策。这种能力预示着未来的智能系统将更加接近人类的认知方式。

八、技术局限性与未来发展方向

尽管SPF系统取得了显著成功,但研究团队也诚实地指出了当前技术的一些局限性,就像任何新技术都需要在实际应用中不断完善一样。

首先是人工智能模型本身的不完美性。虽然现代视觉语言模型已经非常强大,但它们仍然会出现"幻觉"现象,即生成不准确或不存在的信息。在无人机控制的背景下,这可能导致系统错误识别目标或误判环境情况。研究团队发现,这种问题在处理小型或远距离目标时更加明显。

系统的响应延迟是另一个需要改进的方面。目前1.5到3秒的响应时间对于大多数应用来说是可以接受的,但对于需要快速反应的场景(如避免突然出现的障碍物)可能还不够快。这个问题主要源于人工智能模型的推理时间,随着模型优化和硬件改进,这个问题有望得到缓解。

深度估计的准确性也存在改进空间。SPF系统使用的是基于人工智能模型预测的相对深度,而不是精确的物理测量。虽然自适应调节机制在很大程度上缓解了这个问题,但在需要极高精度的应用中,可能需要结合其他传感器信息。

指令理解的鲁棒性是另一个挑战。虽然系统能够处理各种自然语言指令,但其性能可能会受到指令表达方式的影响。同样的意图用不同的词汇表达时,可能会得到不同的结果。这要求用户在使用时需要一定的学习和适应。

对于高度动态的环境,系统的适应能力仍有限制。虽然SPF系统能够跟踪移动目标,但当环境中存在多个快速移动的对象时,系统可能会出现混淆或跟踪失败的情况。

针对这些局限性,研究团队提出了几个重要的未来发展方向。首先是提高感知系统的鲁棒性。这可能包括开发更先进的错误检测和纠正机制,以及集成多种传感器信息来提高环境理解的准确性。

减少系统延迟是另一个重要目标。这可能通过模型优化、硬件加速或预测性控制等方法来实现。研究团队特别提到了探索更轻量级的人工智能模型的可能性,这些模型虽然功能稍弱,但响应速度更快。

改进深度估计和路径规划算法也在考虑范围内。这可能包括开发更精确的单目深度估计方法,或者设计更智能的搜索和探索策略。

人工智能模型的专门化训练是另一个有前景的方向。虽然SPF系统的优势在于使用通用模型,但针对无人机控制任务进行适度的模型微调可能会进一步提高性能。

多无人机协调控制也是一个令人兴奋的扩展方向。目前的SPF系统主要针对单个无人机,但其架构原理上可以扩展到多无人机系统,实现更复杂的协作任务。

说到底,SPF系统代表了无人机控制技术的一个重要里程碑。它成功地将复杂的飞行控制问题转化为人工智能擅长的视觉理解任务,实现了真正的零训练通用控制。虽然还存在一些技术挑战,但这项研究为未来的智能无人机系统指明了一个充满希望的发展方向。

这项技术的成功不仅在于其技术创新,更在于它展示了如何巧妙地结合现有技术来解决复杂问题。在人工智能技术日新月异的今天,SPF系统的设计理念可能会启发更多类似的创新,推动整个机器人技术领域的发展。对于普通用户来说,这意味着未来的无人机将变得更加智能、更加易用,真正成为我们生活和工作中的得力助手。

Q&A

Q1:SPF系统是什么?它与传统无人机控制有什么不同?
A:SPF(See, Point, Fly)是台湾研究团队开发的无人机控制系统,最大特点是完全不需要训练就能工作。用户可以用自然语言指挥无人机,比如"飞到那个穿绿衣服的人那里"。传统系统需要大量数据训练才能学会新任务,而SPF直接利用现有AI模型的能力,将复杂的三维飞行控制转化为简单的二维图像标记任务。

Q2:SPF系统的成功率有多高?能处理哪些复杂任务?
A:SPF系统在模拟环境中达到93.9%成功率,真实世界中达到92.7%成功率,远超其他方法。它能处理各种复杂任务,包括避开障碍物、追踪移动目标、执行推理任务(如"找个舒适的椅子避雨")、长距离导航等。系统还能理解抽象指令,比如"飞到需要帮助的人那里"。

Q3:SPF系统有什么局限性?普通人能使用吗?
A:主要局限包括1.5-3秒的响应延迟、AI模型偶尔的识别错误、对指令表达方式的敏感性等。但对大多数应用来说这些都可以接受。普通人完全可以使用,因为只需要用自然语言说出指令即可,不需要学习复杂的操作技能。系统设计就是为了让无人机控制变得像指挥一个聪明助手一样简单。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-