3月31日,由DISCOVER实验室主办的第二十期AIR DISCOVER青年科学家论坛如期举行。本活动有幸邀请到上海人工智能实验室PI/青年科学家李弘扬、青年研究员陈立,为AIR的老师和同学们做了题为
Recent Advances on End-to-end Autonomous Driving
(端到端自动驾驶算法设计思考)的精彩报告。报告介绍的工作UniAD被选为CVPR 2023 Award Candidate。本次会议共9000篇投稿,其中仅有12篇论文作为award candidate,共同竞逐CVPR Best Paper。
李弘扬,上海人工智能实验室PI/青年科学家。2019年获香港中文大学博士学位。2019年至2022年,李弘扬博士在商汤科技担任高级研究科学家,从事自动驾驶量产应用研究。2021年至今,任职于上海人工智能实验室,从事自动驾驶和通用视觉的前沿研究。李弘扬博士目前的研究兴趣集中在感知与认知、端到端自动驾驶、基础模型等方面。李弘扬博士在CVPR、ICCV、ECCV、NeurIPS、CoRL、ICLR、TPAMI、TIP等国际顶尖会议/期刊上发表论文三十余篇,多次担任国际顶尖会议领域主席。其工作UniAD入选CVPR 2023 Award Candidate。
陈立,上海人工智能实验室自动驾驶团队青年研究员。研究兴趣主要为计算机视觉,端到端自动驾驶,发表多篇相关工作在国际会议如CVPR、ECCV、NeurIPS、CoRL等。
本次报告中,李弘扬博士和陈立研究员围绕其近期工作Unified Autonomous Driving(UniAD),分享了对端到端自动驾驶算法设计的一些思考。UniAD首次将目标检测与跟踪、地图预测、轨迹预测、占据栅格预测、规划整合为同一个基于Transformer的端到端网络框架,在公开数据集nuScenes的所有相关任务上都取得了大幅优于同类型SOTA方法的结果。
李弘扬博士首先介绍了进行端到端感知决策一体化研究的背景和动机。
现有的自动
驾驶系统可大
致分为三类:
模块化设计,多任务框架,端到端。
模
块化设计方案中,每个独立的模块负责单独的子任务。
这种方案具备简化研发团队分工,便于问题回溯,易于调试迭代等优点。
但由于将不同任务解耦,各个模块相对于最终的驾驶规划目标存在信息损失问题,且多个模块间优化目标不一致,误差会在模块间传递。
多任务框架中,不同任务使用同一个特征提取器,具备便于任务拓展、节省计算资源等优点。但不同任务之间存在预测不一致、表征冲突的问题。
针对上述问题,自动驾驶学术界和产业界将研究方向聚焦在了感知决策一体化上。通过端到端模型统一感知与决策两大体系,可以避免级连误差,提升视觉信息表达。同时以认知决策作为自动驾驶终极问题,直接聚焦,优化终端性能体验。尽管具备这些优点,这一研究思路在真实数据闭环验证、算法输出可解释性等方面仍存在难点。
一种简单的方式直接以传感器信号作为输入、以轨迹/控制作为输出。该方式通过基于模仿学习或强化学习的算法设计,能够在仿真中取得较好结果。但缺乏可解释性与实际应用安全性。
另一种方式是对模型进行显式设计,将整个架构分为感知-预测-规划模块,使其具有部分中间结果表达。但这种方式面临检测结果在模块间不可微导致无法端到端优化,稠密BEV预测时长有限,过去-未来、物体-场景等多维度信息难以高效利用等困难。
基于以上对自动驾驶算法框架优势和难点的分析,李弘扬博士指出,为了实现可靠且面向最终规划目标的自动驾驶系统,选取哪些必要任务作为内部模块、如何设计有利于规划的算法架构是UniAD的主要研究内容。
接下来,陈立研究员介绍了UniAD的算法设计内容。以驾驶规划为最终目标,UniAD参考业界自动驾驶系统模块设计,李弘扬博士与陈立研究员团队选取了目标检测与跟踪、在线建图、轨迹预测、占据栅格预测等四项任务,作为最终实现安全规划的子模块。
整体上,UniAD利用多组query实现了全栈Transformer 的端到端模型。其中目标检测与跟踪模块实现了对动态元素的特征提取、帧间物体跟踪;在线建图模块实现了对静态物体的特征提取、实例级地图预测;轨迹预测模块实现了动静态元素交互与长时序轨迹预测;占据栅格预测模块实现了短时序全场景BEV、实例级预测;最终的规划模块实现基于自车query的轨迹预测和基于占据栅格的碰撞优化。
UniAD框架使用BEVFormer作为特征提取器,利用其出色的特征提取时序融合能力辅助下游任务。该部分也可以快速替换为其他BEV模型,具有较好的可拓展性。
接下来,UniAD参考了MOTR的思想,利用自主更新的query解决了3D tracking模块不可导问题。同时借助Panoptic SegFormer的思想构建了在线建图模块。
在轨迹预测部分,UniAD建模了智能体之间、智能体与地图元素、智能体与目标点等多种交互关系。并通过非线性优化的方式,同时考虑目标点位置和动力学限制,以解决端到端方案中的上游误差问题。
在占据栅格预测中,UniAD在网络内部编码智能体信息,同时构建场景级与智能体级占据语义表征。
对于规划模块,UniAD主要有三个核心设计:以运动轨迹作为先验;依据未来运动命令对BEV特征施加注意力机制;利用占据栅格进行碰撞优化。
陈立研究员进一步介绍了UniAD的实验结果。通过大量的消融实验,得出了各项子模块互相带来增益的结论,验证了UniAD中各模块设计与耦合的合理性与有效性。
对于最终的规划任务,基于二维图片输入的UniAD取得了超越基于LiDAR输入的端到端方法的优越性能。
同时,UniAD在各个子任务上也取得了大幅优于同类型SOTA方法的结果。
陈立研究员进一步展示了UniAD的可视化结果。各个子任务的预测结果被集成在同一可视化图像中。这些任务结果与注意力热力图展现了UniAD具备障碍物准确感知、给予合理注意力的能力。
另一个实例展示了UniAD在目标检测阶段未检测出一个隐蔽的物体,但在规划时仍有效地施加了注意力到相关区域。证明了UniAD具备从上游模块错误中恢复的能力。
通过以上定量和定性结果,可以看到UniAD在规划及其相关子任务中的强大能力。
最后,李弘扬博士和陈立研究员展望了端到端感知决策一体化模型的未来探索方向:构建海量数据驱动下的自动驾驶大模型,如预测决策多任务大模型、多模态端到端感知大模型等;融合地图感知模块、优化决策规划模块,以实现更精细的模块设计。
报告结束后,李弘扬博士和陈立研究员与参会的老师和同学们对报告中的技术细节和领域前沿进展进行了热烈的讨论。
项目地址:https://github.com/OpenDriveLab/UniAD
论文地址:https://arxiv.org/abs/2212.10156
文稿撰写 / 李鹏飞
排版编辑 / 王影飘
校对责编 / 黄 妍