
再有几周就到万圣节了,今年让人害怕的东西可不止是鬼怪、还有更多晦暗不明的新难题。
就拿自动驾驶汽车来说,技术人员直到现在也不清楚怎么才能在完全无需人类介入的情况下实现自主行驶。哪怕是代表业界前沿水平的特斯拉FSD,也经常会在明显标记为单行道的路面上逆向行驶。
这又带来了新问题:关于自动驾驶汽车即将全面铺开的传闻,实际是种被严重夸大的谣言。
马斯克曾在2019年放出震惊世界的豪言——在2020年内部署100万辆全自动机器人出租车,专家们也纷纷对此表示肯定。但如今的结果呢?目前跑在路面上的特斯拉自动驾驶汽车共有……零台。
https://t.co/NEVnU4Jjgy
— 李开复 (@kaifulee) 2019年5月8日
投资者们对自动驾驶汽车再度延后一年的现状感到不安。几年前,大家都以为自动驾驶汽车马上就会成为常态。但如今,几年过去了……距离这个目标似乎还有几年。
而且如果跟负责开发这类技术的企业高管交流过,大家就会意识到,他们仍然在重复当初的承诺。
所以最核心的问题就变成了,这类技术的普及是不是永远还需要几年,或者说到底存不存在一个真正明确的发展里程碑?
努力解决这个问题的厂商绝不止是福特、Cruise、Waymo以及特斯拉,但无论是谁,参与其中的企业都希望能用自动驾驶话题帮自己在媒体上搏点热度。
还有无数其他技术企业在尝试解决自治系统的问题。而且他们宁愿直面问题失真的风险,也不想停下营销活动的脚步——大批销售价值4万美元的汽车,至于技术承诺……这个总有一天会实现的。
AEye公司首席科学家Allen Steinhardt在采访中讨论了这个问题,希望结合自身经历聊聊自动驾驶领域的真实情况。
AEye是一家专注于激光雷达的公司,目前拥有包括iDAR(智能检测与测距)双基架构(双独立通信通道)技术在内的100多项专利,希望为激光雷达提供效果确切的集成化AI解决方案。
另外,Steinhardt之前还在DARPA(美国国防部高级研究计划局)担任过前首席科学家。尖端军事技术领域的背景再加上丰富的全球规模交通问题解决经验,让他成为自动驾驶汽车领域的顶尖专家。
我们想弄清的第一个问题就是“为什么”。为什么自动驾驶汽车技术一直说“还需要几年”,说着说着就已经过去了十年?
援引业内的说法,Steinhardt认为真正的问题在于发明和应用的有效结合。其中最大的挑战,就是如何创造出能够运用现有成果的实用性技术:
我们的基础设施是为人类建造的。……而且无论是军用还是民用,直接放弃这些现有设施显然不太可能。
走在街道上,可以看到停车标志、交通灯以及无数其他用于提醒人类驾驶员注意当前路况的视觉元素。我们将路边标牌与GPS系统及加速度计相结合,共同为智能手机或车载系统建立起现代范式,能够即时向驾驶员提供方向指引——例如500米后右转。
事实上,消费者们也更倾向于支持马斯克提出的纯视觉型自动驾驶汽车。几年前,最主流的自动驾驶解决方案就是视觉分析——在汽车上装满摄像头,再训练AI模型以解释图像。这样似乎就能完美替代人类驾驶员的路况判断了。
但实际上,我们想要的是类似于人类的驾驶机器吗?或者说,纯视觉方法到底能带我们走多远?
马斯克承诺的以深度学习算力暴力提升视觉系统效能的思路,必须要以一辆能够断网运行且同样效果良好的实车为依据。很明显,没人受得了一旦网络连接故障、车子就得抛锚在路边。
但正如Steinhardt的提醒,这套方案中的核心并不在于数据加密;相反,关键是如何利用现有标牌、道路、GPS数据等建立起不依赖于现有网络基础设施的通信阵列。这样即使车辆不能或不应直接使用现有网络,也需要建立起属于自己的网络体系。
Steinhardt认为,问题在于大多数通信阵列(包括5G)都存在数据拥塞与数据丢失的风险。对于大量依赖外部数据的车辆来说,这会构成一大关键故障点。
总而言之,路面上之所以见不到自动驾驶汽车跑来跑去,就是因为这项技术还没有完全成熟。就这么简单。
视觉方法确实能解决不少问题,但如果我们希望未来的汽车在驾驶效能上与人类一样甚至更好,那就得想点新办法。
AEye及其合作伙伴正致力于大规模生产激光雷达系统,希望在车辆直线行驶和红灯停车之外探索出更多重要应用场景。
抛开方向盘与踏板操作不谈,驾驶过程需要考虑的不仅仅是遵守交通规则和避免撞车。Steinhardt提到几年前出现的一个典型场景——一处桥梁意外被洪水冲毁。
这类情况对驾驶员来说可能非常危险、甚至带来致命威胁;即使在现代世界中,灾难期间的信息传递仍然比较困难。我们很难断言在获得及时上报之前,已经有多少车辆受到影响;而且一旦网络基础设施出现故障,传统通信线路也往往会同时陷入瘫痪。
AEye的iDAR系统拥有将激光雷达传感器转换为光通信网络的专利功能;如此一来,传感器不仅能够确定道路上发生的状况,同时也能建立起实时通信阵列,帮助协调多个车辆节点之间的“知识”。这样即使互联网发生故障,或者4G/5G网络遭遇拥塞,车载通信阵列仍能以最佳方式运作。
正如Steinhardt所言,业界的目标应该是引导车辆创建出动态系统,保证“在没有网络基础设施的情况下完成互联网的一切功能”。
例如,这类系统不仅能够向车辆实时通报特定范围内的道路变化情况(例如桥梁被洪水冲毁),还可以执行其他无数任务,例如共享关于道路的匿名统计数据、提供更丰富的乘客娱乐选项、甚至随时连通同一区域内的两位乘车人开展游戏对抗。
Stenhardt还提出了“随车拍卖系统”的思路,这类系统能够实时运行、以无缝方式移交实体产品或销售服务,高效解决由来已久的旅行商问题。
我们可以设想这样一个基于车载平台的新时代,销售与配送都能够以车辆为起点/终点,大大降低环保成本、改善经济性。这类系统甚至能够无缝处理订单取消或车辆事故,从而消除意外引发的涟漪效应。
更令人兴奋的是,如果车辆遇到极端情况——例如陷入泥地无法脱困,系统还可以与其他遭遇类似问题的车辆合作寻求解决方案,或者发出警告以提醒其他车辆远离这部分“危险区域”。
这些应用已经远远超出了消费级车辆与机器人出租车的概念空间。铁路、航空、海运与陆运行业已经发展成熟,能够以彼此交错的数据驱动自治与通信系统这场颠覆性革命。只要这类系统成功落地,将给我们带来更快、更便宜也更安全的社会运作体验。
但说了这么多,我们仍不清楚什么时候才能在全球城市街道上看到这类技术的大规模民用普及。
好在与其坐等技术突破,以AEye为代表的众多企业正在积极推动这波变革。AEye公司在iDAR、激光雷达以及其他多个领域的百余项专利技术,也代表着各厂商与AI开发人员努力将理想转化为现实的真切付出。
也许我们距离L4与L5级自动驾驶汽车真的“只有几年时间”,也许之前提到的、科幻般的生活新时代已经触手可及。让我们共同期待!
好文章,需要你的鼓励
AIM Intelligence联合多所知名大学揭示了音频AI系统的重大安全漏洞,开发出名为WhisperInject的攻击方法。这种攻击能让看似无害的音频指令操控AI生成危险内容,成功率超过86%,完全绕过现有安全机制。研究暴露了多模态AI系统的系统性安全风险,对全球数十亿智能设备构成潜在威胁。
新加坡国立大学研究团队系统梳理了视觉强化学习领域的最新进展,涵盖超过200项代表性工作。研究将该领域归纳为四大方向:多模态大语言模型、视觉生成、统一模型框架和视觉-语言-动作模型,分析了从RLHF到可验证奖励范式的政策优化策略演进,并识别出样本效率、泛化能力和安全部署等关键挑战,为这一快速发展的交叉学科提供了完整的技术地图。
浙江大学研究团队通过OmniEAR基准测试揭示了当前AI模型在物理世界推理方面的严重缺陷。测试显示,即使最先进的AI在明确指令下能达到85-96%成功率,但面对需要从物理约束推断行动的任务时,成功率骤降至56-85%。研究发现信息过载反而降低AI协作能力,监督学习虽能改善单体任务但对多智能体协作效果甚微,表明当前架构存在根本局限性。
纽约大学和Aimpoint Digital Labs的研究团队首次揭示了Transformer模型训练中"大规模激活"的完整发展轨迹。这些影响力比普通激活大千倍的"超级激活"遵循可预测的数学规律,研究者开发出五参数公式能以98.4%准确率预测其变化。更重要的是,通过调整模型架构参数如注意力密度、宽深比等,可以在训练前就预测和控制这些关键激活的行为,为设计更高效、量化友好的AI模型提供了全新工具。