
这项由清华大学智能产业研究院的陈博奎、龚建涛教授团队,联合华盛顿大学、北京交通大学、香港理工大学等多所院校共同完成的研究,发表于2025年10月的arXiv预印本平台(论文编号:2510.12560v1)。对于关注自动驾驶技术发展的读者,可以通过该编号查询完整论文内容。
当我们学习开车时,通常会经历两个阶段:先跟着教练模仿标准动作,然后在实际道路上通过试错来积累经验。有趣的是,目前的自动驾驶AI系统大多只会"模仿学习"这一种技能——就像一个只会照着教科书开车,但遇到突发情况就不知所措的新手司机。
清华大学的研究团队发现了这个问题的关键所在。他们注意到,现有的自动驾驶系统主要依赖模仿学习,这就好比让学生只通过背诵标准答案来学数学,而不教会他们解题的思路。这种方法在遇到教科书上没有的新情况时,往往会表现得很糟糕,特别是在那些罕见但危险的长尾场景中,比如突然出现的行人或者异常的交通状况。
为了解决这个问题,研究团队提出了一个巧妙的解决方案:让AI系统同时具备模仿能力和探索能力。他们开发了一个名为CoIRL-AD的新框架,这个名字代表着"协作竞争式模仿强化学习"。简单来说,就是在AI的大脑里安装了两个不同的"驾驶员"——一个专门负责模仿专家驾驶,另一个专门负责探索和试错。
这种设计的巧妙之处在于让这两个"驾驶员"既合作又竞争。模仿驾驶员会严格按照专家的示范来行驶,确保基础驾驶技能的可靠性。同时,探索驾驶员会在安全的范围内尝试不同的驾驶策略,从成功和失败中学习经验。当两个驾驶员的表现相近时,它们会和平共处;但当其中一个明显表现更好时,较弱的那个会主动学习强者的经验。
研究团队在这个双重学习系统的基础上,还引入了一个虚拟的"想象世界"。这个想象世界就像一个高度逼真的驾驶模拟器,让探索驾驶员可以在不实际上路的情况下,预测不同行驶策略的后果。这样一来,AI系统就能在真实世界的数据基础上,通过想象来扩展自己的经验范围。
特别值得注意的是,研究团队还发现了一个有趣的现象:传统的驾驶规划通常是"从近到远"——先确定眼前要怎么走,再考虑远处的目标。但他们发现,"从远到近"的反向规划方式实际上更符合人类的驾驶思维。就像我们开车时,通常是先确定要去哪里,然后再决定具体的转弯和变道动作。
在nuScenes和Navsim这两个权威的自动驾驶数据集上,CoIRL-AD系统展现出了显著的优势。与传统的纯模仿学习方法相比,这个新系统的碰撞率降低了18%,在处理罕见和困难场景时的表现也更加出色。更重要的是,当系统在一个城市学习后被部署到另一个完全不同的城市时,它的适应能力明显优于传统方法。
研究团队通过大量实验验证了他们方法的有效性。他们特别构建了两个具有挑战性的测试场景:一个专门包含那些容易导致预测错误的情况,另一个专门包含那些容易引发碰撞的危险场景。在这些困难场景中,CoIRL-AD系统都展现出了比传统方法更强的应对能力。
这项研究的技术创新不仅体现在双重学习架构上,还包括了许多精巧的细节设计。比如,为了让探索驾驶员产生的行驶轨迹更加平滑和合理,研究团队采用了"步骤感知"的探索机制。这种机制确保在每次探索中,只有一个行驶步骤是随机的,其他步骤都采用最优策略,这样既能保证探索的多样性,又能维持轨迹的连贯性。
在实际的训练过程中,研究团队观察到了一个类似人类学习的有趣现象:在训练初期,模仿驾驶员通常表现更好,因为它有明确的专家示范可以学习。但随着训练的深入,探索驾驶员开始展现出优势,因为它通过试错积累了更丰富的应对经验。这种动态变化恰好体现了学习过程的自然规律。
研究团队还进行了详细的消融实验,验证了框架中每个组件的必要性。他们发现,简单地将模仿学习和强化学习的损失函数相加并不能获得理想的效果,反而可能因为梯度冲突导致训练不稳定。只有通过双策略架构和竞争机制,才能真正实现两种学习方式的有效结合。
值得一提的是,这个新系统在推理阶段并不会增加额外的计算开销。两个驾驶员在训练完成后会整合为一个统一的驾驶策略,因此在实际部署时的运行效率与传统方法相当。
从更广泛的意义来看,这项研究为自动驾驶技术的发展提供了一个新的思路。它表明,仅仅依靠模仿学习可能无法让AI系统获得足够的泛化能力来应对复杂多变的真实世界。通过引入探索和试错的机制,AI系统可以像人类一样,不断从经验中学习和改进。
研究团队在论文中也坦率地讨论了当前方法的局限性。他们指出,由于使用的奖励函数相对简单,只考虑了模仿奖励和碰撞奖励,系统在某些复杂场景下的表现仍有改进空间。此外,基于世界模型的仿真虽然能够提供额外的训练数据,但与真实世界之间仍存在一定差距。
尽管存在这些局限性,CoIRL-AD框架已经展现出了巨大的潜力。它不仅在技术层面实现了创新突破,更重要的是为自动驾驶AI系统的学习方式提供了新的思考方向。这种结合模仿与探索的学习范式,很可能会成为未来自动驾驶技术发展的重要趋势。
随着自动驾驶技术逐渐走向实用化,如何让AI系统在保持安全性的同时具备足够的适应能力,始终是一个核心挑战。清华大学团队的这项研究为解决这一挑战提供了一个富有启发性的方案,相信会为整个自动驾驶行业的发展带来积极的推动作用。
Q&A
Q1:CoIRL-AD自动驾驶系统是如何同时进行模仿学习和强化学习的?
A:CoIRL-AD在AI系统内部设置了两个独立的"驾驶员"——模仿驾驶员和探索驾驶员。模仿驾驶员专门学习专家的标准驾驶行为,而探索驾驶员通过在虚拟环境中试错来积累经验。两个驾驶员会定期比较表现,优秀的一方会向较弱的一方传授经验,实现知识共享。
Q2:这种双重学习方法比传统自动驾驶系统有什么优势?
A:传统系统只会模仿,遇到训练数据中没有的情况就容易出错。CoIRL-AD系统碰撞率比传统方法降低了18%,在罕见场景和跨城市部署时表现更好。就像既会背书又会独立思考的学生,比只会背书的学生适应能力更强。
Q3:CoIRL-AD系统的反向规划是什么意思?
A:传统系统是"从近到远"规划,先决定眼前怎么走再考虑远处目标。CoIRL-AD采用"从远到近"的反向规划,先确定最终目的地,再决定具体的转弯变道动作。这更符合人类开车的思维习惯,让AI的驾驶决策更加合理。
好文章,需要你的鼓励
谷歌DeepMind等顶级机构联合研究揭示,当前12种主流AI安全防护系统在面对专业自适应攻击时几乎全部失效,成功率超过90%。研究团队通过强化学习、搜索算法和人类红队攻击等多种方法,系统性地突破了包括提示工程、对抗训练、输入过滤和秘密检测在内的各类防护技术,暴露了AI安全评估的根本缺陷。
西蒙弗雷泽大学和Adobe研究院联合开发的MultiCOIN技术,能够将两张静态图片转换为高质量的过渡视频。该技术支持轨迹、深度、文本和区域四种控制方式,可单独或组合使用。采用双分支架构和分阶段训练策略,在运动控制精度上比现有技术提升53%以上,为视频制作提供了前所未有的灵活性和精确度。
英国国王学院研究团队开发了潜在精炼解码(LRD)技术,解决了AI文本生成中的速度与准确性平衡难题。该方法通过两阶段设计模仿人类思考过程:先让AI在连续空间中"深思熟虑",保持多种可能性的混合状态,然后"果断行动",逐步确定答案。实验显示,LRD在编程和数学推理任务中准确性提升最高6.3个百分点,生成速度提升最高10.6倍,为AI并行文本生成开辟了新路径。
清华大学团队开发的ViSurf是一种创新的大型视觉语言模型训练方法,巧妙融合了督导式学习和强化学习的优势。该方法通过将标准答案整合到强化学习过程中,让AI既能从正确答案中学习又能保持自主推理能力。实验显示ViSurf在多个视觉任务上显著超越传统方法,特别是在处理模型知识盲区时表现突出,同时有效避免了灾难性遗忘问题,为AI训练提供了更高效稳定的新范式。