这项由瑞典皇家理工学院(KTH Royal Institute of Technology)的Maciej K. Wozniak团队与沃尔沃卡车旗下的斯堪尼亚公司合作完成的研究发表于2025年7月,论文标题为"PRIX: Learning to Plan from Raw Pixels for End-to-End Autonomous Driving"。感兴趣的读者可以通过论文编号arXiv:2507.17596v2访问完整研究内容,也可以在研究团队的项目主页https://maxiuw.github.io/prix找到更多资料。
当我们谈到自动驾驶汽车时,大多数人首先想到的可能是那些车顶装着旋转"帽子"的测试车辆——那个"帽子"就是激光雷达。这种昂贵的设备能够精确测量周围物体的距离和形状,就像给汽车装上了一双"超级眼睛"。然而,这样的设备成本高昂,一套激光雷达系统的价格往往相当于一辆普通汽车,这让大多数消费者望而却步。
不过,瑞典皇家理工学院的研究团队却选择了一条截然不同的道路。他们开发的PRIX系统就像是一个技艺精湛的人类司机,仅仅依靠"眼睛"——也就是普通的摄像头——就能安全地驾驶汽车。这种方法不仅大大降低了成本,还证明了一个令人兴奋的可能性:也许我们并不需要那些昂贵的"超级眼睛",普通的摄像头配合聪明的算法就足够了。
研究团队面临的挑战就像是要求一个从未见过立体电影的人,仅仅通过看平面照片就准确判断出物体的距离和深度。传统的自动驾驶系统通常会先把摄像头拍摄的画面转换成一种叫做"鸟瞰图"的俯视角度图像,这个过程就像是把一张平面地图转换成立体的地形模型,需要大量的计算资源。而PRIX系统的创新之处在于,它能够直接从原始的摄像头画面中提取有用信息,跳过了这个耗时的转换过程。
更令人印象深刻的是,PRIX不仅在性能上达到了业界顶尖水平,在速度和效率方面更是远超竞争对手。在各项测试中,PRIX的表现就像是一位既稳重又敏捷的老司机,不仅开得安全,反应速度也比其他系统快得多。在关键的NavSim基准测试中,PRIX以57帧每秒的处理速度运行,虽然比最快的系统慢了3帧,但在安全性和准确性方面的得分却高出一大截。这就好比是在一场既比速度又比技巧的驾驶比赛中,PRIX虽然不是跑得最快的,但综合表现最为出色。
一、PRIX的核心技术:像人类一样"看"和"想"
要理解PRIX系统的工作原理,我们可以把它比作一个学习开车的新手司机的成长过程。当一个人刚开始学车时,他需要同时处理大量信息:观察道路状况、识别交通标志、判断其他车辆的位置和速度、规划行驶路线等等。PRIX系统的工作方式与此非常相似,但它的"学习"过程更加系统化和高效。
PRIX的视觉系统基于一种叫做ResNet的深度学习架构,这就像是给计算机装上了一双经过专业训练的"眼睛"。但仅仅有好的"眼睛"还不够,PRIX的独特之处在于它配备了一个叫做"上下文感知重新校准变换器"(Context-aware Recalibration Transformer,简称CaRT)的创新模块。
要理解CaRT的作用,我们可以想象这样一个场景:当你开车经过一个复杂的十字路口时,你的眼睛会自动聚焦在最重要的信息上——比如红绿灯的状态、正在过马路的行人、从侧面驶来的车辆等等。同时,你的大脑会综合处理这些信息,形成对整个场景的理解。CaRT模块的工作原理与此类似,它能够智能地决定图像中的哪些部分最重要,并将这些重要信息与整体场景的理解结合起来。
传统的计算机视觉系统往往会为每个不同的抽象层次创建专门的处理模块,就像是雇用不同的专家来处理不同类型的信息。但PRIX团队发现,使用一个共享的智能模块来处理所有层次的信息反而更加高效。这就好比是培养一个全能型的司机,而不是让多个专业司机轮流开车。这种设计不仅减少了系统的复杂性,还提高了处理速度。
在具体的技术实现上,CaRT模块采用了一种叫做"自注意力机制"的技术。简单来说,这就像是让系统学会"专注"——当面对一幅复杂的道路图像时,系统会自动识别出最需要关注的区域,比如正在变道的车辆或者即将变绿的交通灯,然后将更多的"注意力"分配给这些关键区域。
研究团队在设计过程中还发现了一个有趣的现象:增加系统的处理步骤并不总是能带来更好的效果。他们测试了不同数量的处理步骤,从2步到50步都试过,结果发现使用2步处理就能达到最佳效果。这就像是做菜时发现,并不是炖得越久味道就越好,有时候恰到好处的时间反而能保持最佳的口感。
二、扩散模型规划:如何从混乱中找到最佳路径
PRIX系统的路径规划部分采用了一种叫做"扩散模型"的技术,这个技术的工作原理颇有些类似于艺术家的创作过程。当艺术家要画一幅画时,他可能会先在画布上随意涂抹一些颜色和线条,然后逐步修改和完善,最终创作出一幅精美的作品。扩散模型的工作方式与此相似,它从一组随机的、看似毫无意义的轨迹开始,然后通过反复的"精修"过程,最终生成一条安全、合理的行驶路径。
这个过程可以用一个更具体的比喻来解释:假设你要在一张地图上为朋友规划从家到机场的最佳路线。一开始,你可能会在地图上画出几条完全随机的线路,有些可能穿过湖泊,有些可能绕过整个城市。然后,你开始逐步修正这些路线——去掉那些不现实的部分,优化那些可行但不够好的部分,考虑交通状况、道路质量、行驶时间等因素。经过多次修正后,你最终得到一条既实用又高效的路线。
PRIX系统的扩散规划器做的就是类似的工作,只不过它处理的不是静态的地图路线,而是动态的驾驶轨迹。系统会考虑当前的交通环境、车辆状态、安全要求等多重因素,从多个候选轨迹中选出最优的一条。
有趣的是,研究团队最初尝试了各种复杂的优化策略,比如同时考虑路径的起点和终点信息。但实验结果表明,过多的约束条件反而会让系统"想太多",就像是一个优柔寡断的司机,面对简单的路况却因为考虑过多而迟迟无法做出决定。最终,他们选择了一种更加直接有效的方法:专注于当前的交通环境和车辆状态,让系统能够快速而准确地做出决策。
三、多任务学习:一心多用的智能系统
人类司机在开车时需要同时处理多种任务:观察道路、识别标志、注意行人、规划路线等等。PRIX系统也采用了类似的"一心多用"策略,这种方法在技术上被称为"多任务学习"。
系统的主要任务当然是规划安全的行驶轨迹,但研究团队发现,如果让系统同时学习其他相关任务,反而能够提高主要任务的表现。这就像是学习弹钢琴的人如果同时练习视唱练耳,往往能更好地理解音乐,从而弹奏得更加出色。
PRIX系统需要同时处理三个主要任务。第一个任务是轨迹规划,这是系统的核心功能,就像是司机的主要工作是把车安全地从A点开到B点。第二个任务是物体检测,系统需要识别和定位道路上的其他车辆、行人等动态物体,这就像是司机需要时刻注意周围的交通参与者。第三个任务是语义分割,系统需要理解图像中每个像素代表什么——是道路、车道线、路牌还是建筑物,这相当于司机对道路环境的基本理解。
这种多任务学习的效果是显著的。研究团队的实验显示,如果只让系统学习轨迹规划这一个任务,性能评分只有70.4分。当逐步加入其他辅助任务后,性能不断提升,最终达到了87.8分的高分。这证明了一个重要的原理:要让系统做好一件事,有时候需要让它同时学会做其他相关的事情。
四、实验验证:在虚拟世界中的真实考验
为了验证PRIX系统的性能,研究团队在多个标准化的测试环境中进行了大量实验。这些测试环境就像是驾校的考试场地,但比真实的驾驶考试要复杂和严格得多。
最重要的测试平台是NavSim,这是一个专门用于评估自动驾驶系统的虚拟环境。在这个虚拟世界中,系统需要面对各种复杂的驾驶场景:繁忙的十字路口、多车道的高速公路、狭窄的城市街道、突然出现的行人等等。评分系统会综合考虑多个因素:是否发生碰撞、是否保持在车道内、行驶是否平稳、是否遵守交通规则等等。
PRIX在NavSim-v1测试中取得了87.8分的优异成绩,这个分数不仅超过了其他仅使用摄像头的系统,甚至超过了一些同时使用摄像头和激光雷达的复杂系统。更令人印象深刻的是,PRIX在处理速度方面的表现——它能够以每秒57帧的速度处理图像和做出决策,这意味着它几乎可以实时响应路况变化。
在另一个重要的测试平台nuScenes上,PRIX同样表现出色。这个测试更加注重轨迹预测的准确性,系统需要预测车辆在未来1到3秒内的行驶路径。PRIX的平均预测误差只有0.57米,在所有参与比较的系统中表现最佳。同时,它的碰撞率也是最低的,只有0.07%,这意味着在1000次预测中,只有不到1次会导致潜在的碰撞风险。
研究团队还进行了详细的对比分析。他们将PRIX与目前最先进的多模态系统DiffusionDrive进行了直接比较。结果显示,虽然DiffusionDrive在某些指标上略有优势,但PRIX在整体性能上基本持平,而在处理速度上却快了25%以上。考虑到PRIX只使用摄像头而DiffusionDrive需要摄像头和激光雷达的组合,这个结果是相当令人鼓舞的。
五、技术细节与创新突破
PRIX系统的成功很大程度上源于研究团队在技术细节上的精心设计和优化。他们发现,在自动驾驶系统中,视觉特征提取器的重要性往往被低估了。就像是建房子时地基的重要性一样,一个优秀的视觉特征提取器是整个系统性能的基础。
研究团队对不同类型的规划器进行了对比实验,结果发现了一个有趣的现象:即使使用最简单的多层感知机(MLP)作为规划器,系统仍然能够达到85.1分的不错成绩,这证明了PRIX视觉系统提取特征的质量之高。当使用更复杂的LSTM规划器时,分数提升到86.7分,而使用最先进的扩散模型规划器时,分数达到了87.8分的峰值。
这个发现对整个行业都有重要意义:它表明,与其投入大量资源开发复杂的规划算法,不如优先提升视觉理解能力。这就像是在餐厅经营中,与其专注于复杂的烹饪技巧,不如先确保采购到最新鲜、最优质的食材。
在架构设计上,研究团队做出了一些看似简单但实际上很关键的决定。例如,他们选择在所有特征层级之间共享同一个注意力模块,而不是为每个层级设计专门的模块。这个决定不仅减少了模型的参数数量(从39M减少到37M),还提升了处理速度(从54.4 FPS提升到57.0 FPS),同时保持了性能水平。
另一个重要的技术创新是扩散步数的优化。传统的扩散模型通常需要很多步骤才能生成高质量的结果,但这会严重影响处理速度。PRIX团队通过大量实验发现,仅使用2个扩散步骤就能达到最佳效果。进一步增加步骤数不仅不能提高性能,反而会导致性能下降。这个发现挑战了"步骤越多效果越好"的传统观念,证明了有时候简单的方案反而是最有效的。
六、现实意义与未来前景
PRIX系统的成功不仅仅是一个技术上的突破,更重要的是它为自动驾驶技术的普及提供了一条可行的路径。当前限制自动驾驶技术大规模应用的主要障碍之一就是成本。一套完整的激光雷达系统往往价值数万美元,这让大多数消费者望而却步。而PRIX系统仅依靠普通的摄像头就能达到相当的性能水平,这意味着自动驾驶技术有可能在更短的时间内走入普通家庭。
从商业角度来看,PRIX系统的意义更加深远。汽车制造商可以在不大幅增加成本的情况下为车辆添加自动驾驶功能,这不仅能够提升产品竞争力,还能够让更多消费者享受到科技进步带来的便利。特别是对于价格敏感的市场,比如经济型轿车或商用车辆,这种技术方案具有巨大的吸引力。
研究团队也诚实地指出了当前系统的局限性。由于完全依赖摄像头,PRIX系统在恶劣天气条件下的表现可能会受到影响。大雾、暴雨或强烈的阳光都可能干扰摄像头的正常工作,从而影响系统的判断能力。此外,如果摄像头出现故障或者标定偏差,整个系统的可靠性都会受到影响。
不过,研究团队已经开始考虑解决这些问题的方案。他们建议可以通过自监督预训练的方法来提升系统的鲁棒性,让系统能够从大量未标注的数据中学习更加稳定的特征表示。同时,他们也在探索基于控制理论的方法来更好地处理不确定性和提升安全性。
从技术发展趋势来看,PRIX代表的纯视觉自动驾驶方向正在获得越来越多的关注。特斯拉等公司已经在其产品中采用了类似的技术路线,而PRIX的成功进一步证明了这种方向的可行性。随着摄像头技术的不断进步和深度学习算法的持续优化,纯视觉系统的性能还有很大的提升空间。
七、技术对比与行业影响
要真正理解PRIX系统的价值,我们需要将它放在整个自动驾驶技术发展的大背景下来考察。在过去的十年中,自动驾驶技术经历了从简单的辅助驾驶到复杂的全自动驾驶的演进过程。在这个过程中,技术路线的选择一直是一个充满争议的话题。
主流的技术路线可以大致分为两大阵营:多传感器融合派和纯视觉派。多传感器融合派的代表包括Waymo、Cruise等公司,他们认为只有综合使用激光雷达、摄像头、雷达等多种传感器,才能构建足够可靠的自动驾驶系统。这种观点的逻辑很直观:既然人类司机有时候也会因为视觉盲区或判断失误而发生事故,那么给机器配备比人类更多更强的"感官"应该是更安全的选择。
另一派则以特斯拉为代表,坚持认为视觉系统已经足够强大,只要算法足够聪明,仅凭摄像头就能实现安全的自动驾驶。他们的理由是:人类司机主要依靠视觉来驾驶车辆,既然人类能做到,机器理论上也应该能做到,而且机器还不会疲劳、不会分心、反应速度更快。
PRIX系统的成功为纯视觉派提供了强有力的技术支撑。在多个标准化测试中,PRIX不仅在性能上达到了与多传感器系统相当的水平,在某些指标上甚至表现更优。更重要的是,它在成本、复杂性和处理速度方面都显示出明显的优势。
这种优势在商业化应用中的意义不容忽视。以一辆普通轿车为例,如果采用多传感器方案,仅传感器成本就可能达到数万美元,再加上相应的处理硬件和软件开发成本,整个自动驾驶系统的成本可能超过车辆本身的价值。而采用PRIX这样的纯视觉系统,硬件成本可能只有几千美元,这为大规模商业化提供了可能。
从技术演进的角度来看,PRIX系统还体现了人工智能技术发展的一个重要趋势:从复杂走向简洁,从多模态走向高效单模态。这种趋势在其他人工智能应用领域也有体现,比如在语言模型领域,最新的研究表明,精心设计的单一架构往往比复杂的多模块组合更加有效。
八、实际应用场景分析
为了更好地理解PRIX系统的实际价值,我们可以分析几个具体的应用场景。这些场景涵盖了从城市道路到高速公路的各种驾驶环境,展示了系统在不同情况下的表现能力。
在城市道路驾驶场景中,PRIX系统需要处理最复杂的交通状况。研究团队展示的测试视频显示,系统能够准确识别和避让行人,在复杂的十字路口做出正确的转向决策,并且在多车道道路上保持适当的车道位置。特别值得注意的是,在某些情况下,PRIX系统规划的路径甚至比人类司机的实际行驶路径更加安全和合理。
例如,在一个测试场景中,当系统检测到左侧有其他车辆时,它选择了一条相对保守的路径,与其他车辆保持了更大的安全距离。这种行为模式表明,系统不仅学会了如何驾驶,还学会了如何进行风险评估和安全决策。
在高速公路场景中,PRIX系统展现了处理高速行驶和车道变换的能力。系统能够准确预测其他车辆的运动轨迹,选择合适的时机进行变道,并且在整个过程中保持平稳的行驶状态。这些能力对于实用化的自动驾驶系统来说是至关重要的。
研究团队还测试了系统在一些特殊场景下的表现,比如建筑工地附近的复杂路况、狭窄道路上的会车、以及停车场等低速精确操作环境。测试结果显示,PRIX系统在这些场景中同样表现出色,证明了其技术方案的通用性和鲁棒性。
从用户体验的角度来看,PRIX系统的一个重要优势是其响应速度。以每秒57帧的处理速度,系统几乎可以实时响应道路状况的变化。这意味着当前方突然出现障碍物或者其他车辆突然变道时,系统能够在最短时间内做出反应,这对于行车安全来说是极其重要的。
九、与竞争系统的深度对比
为了全面评估PRIX系统的技术水平,研究团队进行了详细的对比分析。这种对比不仅包括整体性能指标,还深入到了具体的技术细节和实现方式。
在与DiffusionDrive的对比中,PRIX显示出了明显的效率优势。虽然DiffusionDrive在某些性能指标上略有领先,但PRIX在处理速度上快了25%以上,同时模型参数数量减少了近40%。这种差异的意义在于,PRIX能够在更低配置的硬件上运行,这对于成本控制和大规模部署都具有重要价值。
更令人印象深刻的是PRIX与多模态系统的对比结果。在NavSim-v1测试中,PRIX这个纯摄像头系统的总分达到87.8分,超过了许多同时使用摄像头和激光雷达的系统。这个结果挑战了"传感器越多越好"的传统观念,证明了算法优化的重要性有时候甚至超过硬件配置的提升。
在具体的性能指标分析中,PRIX在几个关键方面表现突出。在碰撞避免方面,PRIX的得分达到98.1分,这意味着在绝大多数情况下,系统都能成功避免碰撞。在车道保持方面,系统得分96.3分,显示了良好的路径规划能力。在舒适度方面,PRIX获得100分的满分,说明系统规划的轨迹平稳自然,不会给乘客带来不适感。
研究团队还对不同规划器的性能进行了对比分析。结果显示,即使使用最简单的多层感知机作为规划器,PRIX的视觉特征提取系统仍然能够支撑85.1分的性能表现。这个发现具有重要的理论意义:它表明,在自动驾驶系统中,视觉理解能力比路径规划算法更加关键。
这个结论对于整个行业的技术发展方向具有指导意义。它提示研发人员应该将更多资源投入到视觉特征提取和场景理解的研究中,而不是过分追求复杂的规划算法。这种观点与当前一些企业的技术策略不谋而合,也为未来的技术发展提供了明确的方向指引。
十、经济影响与市场前景
PRIX系统的技术突破不仅具有学术价值,更重要的是它可能带来的经济影响和市场变革。在全球汽车产业向智能化转型的大背景下,成本控制成为了技术普及的关键因素。
从制造商的角度来看,PRIX技术的采用可能带来显著的成本优势。传统的激光雷达系统不仅硬件成本高昂,还需要复杂的标定和维护程序。而基于摄像头的系统在硬件成本、安装复杂度和维护成本方面都有明显优势。这种成本优势可以转化为更具竞争力的产品定价,从而扩大市场覆盖面。
对于消费者而言,PRIX技术的成熟意味着他们可能以更低的价格享受到自动驾驶技术带来的便利。特别是在中低端市场,这种技术方案可能成为推动自动驾驶功能普及的重要推手。随着技术的进一步优化和成本的持续降低,我们可能会看到自动驾驶功能从高端车型的专属配置变成大众车型的标准配置。
从产业链的角度来看,PRIX技术的推广可能会重塑自动驾驶产业的供应链结构。激光雷达制造商可能面临市场需求的下降,而摄像头和图像处理芯片制造商可能会迎来新的增长机遇。这种变化不仅会影响现有企业的业务策略,还可能催生新的商业模式和合作关系。
研究团队与斯堪尼亚公司的合作也暗示了PRIX技术在商用车领域的应用前景。商用车由于其运营特点,对成本控制的要求往往比乘用车更加严格。如果PRIX技术能够在保证安全性的同时显著降低系统成本,那么它在物流运输、公共交通等领域可能会有广阔的应用空间。
从全球竞争的角度来看,PRIX技术的成功也为相关国家和地区在自动驾驶技术竞争中提供了新的优势。与需要复杂供应链支撑的多传感器方案相比,基于摄像头的技术方案在技术自主性和供应链安全方面具有明显优势。
说到底,PRIX系统的出现标志着自动驾驶技术发展进入了一个新的阶段。它证明了有时候最简单的方案反而是最有效的,也证明了算法创新的力量有时候能够超越硬件堆叠带来的优势。当我们站在技术发展的十字路口时,PRIX为我们指出了一条既经济实用又技术先进的道路。
这项研究的成功不仅仅是瑞典皇家理工学院研究团队的胜利,更是整个科学界对"少即是多"哲学的一次成功验证。它告诉我们,面对复杂的技术挑战时,答案有时候并不在于增加更多的设备或更复杂的算法,而在于用更聪明的方式使用现有的资源。对于那些希望深入了解这项技术的读者,建议通过论文编号arXiv:2507.17596v2或项目主页https://maxiuw.github.io/prix获取更详细的技术资料,相信这项研究会为自动驾驶技术的未来发展带来深远的影响。
Q&A
Q1:PRIX系统真的只用普通摄像头就能实现自动驾驶吗? A:是的,PRIX完全依靠普通摄像头工作,不需要昂贵的激光雷达。它通过先进的AI算法直接从摄像头图像中提取驾驶所需的信息,在多项测试中表现甚至超过了一些使用激光雷达的系统。不过在恶劣天气下可能会受到一定影响。
Q2:PRIX比其他自动驾驶系统快多少?有什么实际意义? A:PRIX能以每秒57帧的速度处理图像,比同类系统快25%以上,这意味着它能更快地响应突发状况。实际意义是反应时间更短、安全性更高,同时硬件要求更低,有助于降低成本和提高普及率。
Q3:普通消费者什么时候能用上PRIX这样的技术? A:虽然论文没有明确商业化时间表,但PRIX的低成本特点使其比传统方案更容易普及。考虑到它只需要普通摄像头而非昂贵激光雷达,预计会比多传感器方案更早进入消费市场,特别是中低端车型。
好文章,需要你的鼓励
这项由Midjourney团队主导的研究解决了AI创意写作中的关键问题:如何让AI既能写出高质量内容,又能保持创作的多样性和趣味性。通过引入"偏差度"概念和开发DDPO、DORPO两种新训练方法,他们成功让AI学会从那些被传统方法忽视的优秀独特样本中汲取创意灵感,最终训练出的模型在保持顶级质量的同时,创作多样性接近人类水平,为AI创意写作开辟了新方向。
上海AI实验室联合多所高校开发出VisualPRM系统,这是首个专门用于多模态推理的过程奖励模型。该系统能像老师批改作业一样逐步检查AI的推理过程,显著提升了AI在视觉推理任务上的表现。研究团队构建了包含40万样本的训练数据集和专门的评估基准,实现了在七个推理基准上的全面性能提升,即使是最先进的大型模型也获得了5.9个百分点的改进。
上海AI实验室团队通过LEGO积木设计了创新评测基准LEGO-Puzzles,系统测试了20个先进多模态大语言模型的空间推理能力。研究发现即使最强AI模型准确率仅57.7%,远低于人类93.6%的表现,揭示了当前AI在三维空间理解和多步序列推理方面的重大不足,为机器人、自动驾驶等应用发展提供重要参考。
字节跳动团队突破了AI图像生成领域的三大难题:身份识别不准确、文字理解偏差和图片质量不佳。他们开发的InfiniteYou技术采用创新的InfuseNet架构和多阶段训练策略,能够根据用户照片和文字描述生成高质量个性化图像。实验显示该技术在身份相似度、文本匹配度和图像质量方面均超越现有最佳方案,并具备出色的兼容性,为个性化内容创作开辟了新道路。