再有几周就到万圣节了,今年让人害怕的东西可不止是鬼怪、还有更多晦暗不明的新难题。
就拿自动驾驶汽车来说,技术人员直到现在也不清楚怎么才能在完全无需人类介入的情况下实现自主行驶。哪怕是代表业界前沿水平的特斯拉FSD,也经常会在明显标记为单行道的路面上逆向行驶。
这又带来了新问题:关于自动驾驶汽车即将全面铺开的传闻,实际是种被严重夸大的谣言。
马斯克曾在2019年放出震惊世界的豪言——在2020年内部署100万辆全自动机器人出租车,专家们也纷纷对此表示肯定。但如今的结果呢?目前跑在路面上的特斯拉自动驾驶汽车共有……零台。
https://t.co/NEVnU4Jjgy
— 李开复 (@kaifulee) 2019年5月8日
投资者们对自动驾驶汽车再度延后一年的现状感到不安。几年前,大家都以为自动驾驶汽车马上就会成为常态。但如今,几年过去了……距离这个目标似乎还有几年。
而且如果跟负责开发这类技术的企业高管交流过,大家就会意识到,他们仍然在重复当初的承诺。
所以最核心的问题就变成了,这类技术的普及是不是永远还需要几年,或者说到底存不存在一个真正明确的发展里程碑?
努力解决这个问题的厂商绝不止是福特、Cruise、Waymo以及特斯拉,但无论是谁,参与其中的企业都希望能用自动驾驶话题帮自己在媒体上搏点热度。
还有无数其他技术企业在尝试解决自治系统的问题。而且他们宁愿直面问题失真的风险,也不想停下营销活动的脚步——大批销售价值4万美元的汽车,至于技术承诺……这个总有一天会实现的。
AEye公司首席科学家Allen Steinhardt在采访中讨论了这个问题,希望结合自身经历聊聊自动驾驶领域的真实情况。
AEye是一家专注于激光雷达的公司,目前拥有包括iDAR(智能检测与测距)双基架构(双独立通信通道)技术在内的100多项专利,希望为激光雷达提供效果确切的集成化AI解决方案。
另外,Steinhardt之前还在DARPA(美国国防部高级研究计划局)担任过前首席科学家。尖端军事技术领域的背景再加上丰富的全球规模交通问题解决经验,让他成为自动驾驶汽车领域的顶尖专家。
我们想弄清的第一个问题就是“为什么”。为什么自动驾驶汽车技术一直说“还需要几年”,说着说着就已经过去了十年?
援引业内的说法,Steinhardt认为真正的问题在于发明和应用的有效结合。其中最大的挑战,就是如何创造出能够运用现有成果的实用性技术:
我们的基础设施是为人类建造的。……而且无论是军用还是民用,直接放弃这些现有设施显然不太可能。
走在街道上,可以看到停车标志、交通灯以及无数其他用于提醒人类驾驶员注意当前路况的视觉元素。我们将路边标牌与GPS系统及加速度计相结合,共同为智能手机或车载系统建立起现代范式,能够即时向驾驶员提供方向指引——例如500米后右转。
事实上,消费者们也更倾向于支持马斯克提出的纯视觉型自动驾驶汽车。几年前,最主流的自动驾驶解决方案就是视觉分析——在汽车上装满摄像头,再训练AI模型以解释图像。这样似乎就能完美替代人类驾驶员的路况判断了。
但实际上,我们想要的是类似于人类的驾驶机器吗?或者说,纯视觉方法到底能带我们走多远?
马斯克承诺的以深度学习算力暴力提升视觉系统效能的思路,必须要以一辆能够断网运行且同样效果良好的实车为依据。很明显,没人受得了一旦网络连接故障、车子就得抛锚在路边。
但正如Steinhardt的提醒,这套方案中的核心并不在于数据加密;相反,关键是如何利用现有标牌、道路、GPS数据等建立起不依赖于现有网络基础设施的通信阵列。这样即使车辆不能或不应直接使用现有网络,也需要建立起属于自己的网络体系。
Steinhardt认为,问题在于大多数通信阵列(包括5G)都存在数据拥塞与数据丢失的风险。对于大量依赖外部数据的车辆来说,这会构成一大关键故障点。
总而言之,路面上之所以见不到自动驾驶汽车跑来跑去,就是因为这项技术还没有完全成熟。就这么简单。
视觉方法确实能解决不少问题,但如果我们希望未来的汽车在驾驶效能上与人类一样甚至更好,那就得想点新办法。
AEye及其合作伙伴正致力于大规模生产激光雷达系统,希望在车辆直线行驶和红灯停车之外探索出更多重要应用场景。
抛开方向盘与踏板操作不谈,驾驶过程需要考虑的不仅仅是遵守交通规则和避免撞车。Steinhardt提到几年前出现的一个典型场景——一处桥梁意外被洪水冲毁。
这类情况对驾驶员来说可能非常危险、甚至带来致命威胁;即使在现代世界中,灾难期间的信息传递仍然比较困难。我们很难断言在获得及时上报之前,已经有多少车辆受到影响;而且一旦网络基础设施出现故障,传统通信线路也往往会同时陷入瘫痪。
AEye的iDAR系统拥有将激光雷达传感器转换为光通信网络的专利功能;如此一来,传感器不仅能够确定道路上发生的状况,同时也能建立起实时通信阵列,帮助协调多个车辆节点之间的“知识”。这样即使互联网发生故障,或者4G/5G网络遭遇拥塞,车载通信阵列仍能以最佳方式运作。
正如Steinhardt所言,业界的目标应该是引导车辆创建出动态系统,保证“在没有网络基础设施的情况下完成互联网的一切功能”。
例如,这类系统不仅能够向车辆实时通报特定范围内的道路变化情况(例如桥梁被洪水冲毁),还可以执行其他无数任务,例如共享关于道路的匿名统计数据、提供更丰富的乘客娱乐选项、甚至随时连通同一区域内的两位乘车人开展游戏对抗。
Stenhardt还提出了“随车拍卖系统”的思路,这类系统能够实时运行、以无缝方式移交实体产品或销售服务,高效解决由来已久的旅行商问题。
我们可以设想这样一个基于车载平台的新时代,销售与配送都能够以车辆为起点/终点,大大降低环保成本、改善经济性。这类系统甚至能够无缝处理订单取消或车辆事故,从而消除意外引发的涟漪效应。
更令人兴奋的是,如果车辆遇到极端情况——例如陷入泥地无法脱困,系统还可以与其他遭遇类似问题的车辆合作寻求解决方案,或者发出警告以提醒其他车辆远离这部分“危险区域”。
这些应用已经远远超出了消费级车辆与机器人出租车的概念空间。铁路、航空、海运与陆运行业已经发展成熟,能够以彼此交错的数据驱动自治与通信系统这场颠覆性革命。只要这类系统成功落地,将给我们带来更快、更便宜也更安全的社会运作体验。
但说了这么多,我们仍不清楚什么时候才能在全球城市街道上看到这类技术的大规模民用普及。
好在与其坐等技术突破,以AEye为代表的众多企业正在积极推动这波变革。AEye公司在iDAR、激光雷达以及其他多个领域的百余项专利技术,也代表着各厂商与AI开发人员努力将理想转化为现实的真切付出。
也许我们距离L4与L5级自动驾驶汽车真的“只有几年时间”,也许之前提到的、科幻般的生活新时代已经触手可及。让我们共同期待!
好文章,需要你的鼓励
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。
这篇论文介绍了LegalSearchLM,一种创新的法律案例检索方法,将检索任务重新定义为法律要素生成。研究团队构建了LEGAR BENCH数据集,涵盖411种犯罪类型和120万案例,并开发了能直接生成关键法律要素的检索模型。实验表明,该模型在准确率上超越传统方法6-20%,且在未见犯罪类型上展现出强大泛化能力。这一突破为法律专业人士提供了更高效、精准的案例检索工具。