新闻中心

当前位置: 首页 > 新闻中心 > 学术简报 > 正文

AIR学术|上海人工智能实验室李弘扬、陈立:端到端自动驾驶算法设计思考

来源:       发布时间:2023-04-13
主讲人 时间
地点 精彩回顾
3月31日,由DISCOVER实验室主办的第二十期AIR DISCOVER青年科学家论坛如期举行。本活动有幸邀请到上海人工智能实验室PI/青年科学家李弘扬、青年研究员陈立,为AIR的老师和同学们做了题为 Recent Advances on End-to-end Autonomous Driving (端到端自动驾驶算法设计思考)的精彩报告。报告介绍的工作UniAD被选为CVPR 2023 Award Candidate。本次会议共9000篇投稿,其中仅有12篇论文作为award candidate,共同竞逐CVPR Best Paper。

3A34A

讲者介绍

204D

李弘扬,上海人工智能实验室PI/青年科学家。2019年获香港中文大学博士学位。2019年至2022年,李弘扬博士在商汤科技担任高级研究科学家,从事自动驾驶量产应用研究。2021年至今,任职于上海人工智能实验室,从事自动驾驶和通用视觉的前沿研究。李弘扬博士目前的研究兴趣集中在感知与认知、端到端自动驾驶、基础模型等方面。李弘扬博士在CVPR、ICCV、ECCV、NeurIPS、CoRL、ICLR、TPAMI、TIP等国际顶尖会议/期刊上发表论文三十余篇,多次担任国际顶尖会议领域主席。其工作UniAD入选CVPR 2023 Award Candidate。

3812

陈立,上海人工智能实验室自动驾驶团队青年研究员。研究兴趣主要为计算机视觉,端到端自动驾驶,发表多篇相关工作在国际会议如CVPR、ECCV、NeurIPS、CoRL等。

报告内容

本次报告中,李弘扬博士和陈立研究员围绕其近期工作Unified Autonomous Driving(UniAD),分享了对端到端自动驾驶算法设计的一些思考。UniAD首次将目标检测与跟踪、地图预测、轨迹预测、占据栅格预测、规划整合为同一个基于Transformer的端到端网络框架,在公开数据集nuScenes的所有相关任务上都取得了大幅优于同类型SOTA方法的结果。

研究背景与动机

弘扬博士首先介绍了进行端到端感知决策一体化研究的背景和动机。

现有的自动 驾驶系统可大 致分为三类: 模块化设计,多任务框架,端到端。
块化设计方案中,每个独立的模块负责单独的子任务。 这种方案具备简化研发团队分工,便于问题回溯,易于调试迭代等优点。 但由于将不同任务解耦,各个模块相对于最终的驾驶规划目标存在信息损失问题,且多个模块间优化目标不一致,误差会在模块间传递。

30E61

多任务框架中,不同任务使用同一个特征提取器,具备便于任务拓展、节省计算资源等优点。但不同任务之间存在预测不一致、表征冲突的问题。

2C730

针对上述问题,自动驾驶学术界和产业界将研究方向聚焦在了感知决策一体化上。通过端到端模型统一感知与决策两大体系,可以避免级连误差,提升视觉信息表达。同时以认知决策作为自动驾驶终极问题,直接聚焦,优化终端性能体验。尽管具备这些优点,这一研究思路在真实数据闭环验证、算法输出可解释性等方面仍存在难点。

42B4F

在具体实现上,现有的端到端模型可分为两类。
一种简单的方式直接以传感器信号作为输入、以轨迹/控制作为输出。该方式通过基于模仿学习或强化学习的算法设计,能够在仿真中取得较好结果。但缺乏可解释性与实际应用安全性。

27886

另一种方式是对模型进行显式设计,将整个架构分为感知-预测-规划模块,使其具有部分中间结果表达。但这种方式面临检测结果在模块间不可微导致无法端到端优化,稠密BEV预测时长有限,过去-未来、物体-场景等多维度信息难以高效利用等困难。

42B4F

基于以上对自动驾驶算法框架优势和难点的分析,李弘扬博士指出,为了实现可靠且面向最终规划目标的自动驾驶系统,选取哪些必要任务作为内部模块、如何设计有利于规划的算法架构是UniAD的主要研究内容。

UniAD:目标导向的自动驾驶算法设计

接下来,陈立研究员介绍了UniAD的算法设计内容。以驾驶规划为最终目标,UniAD参考业界自动驾驶系统模块设计,李弘扬博士与陈立研究员团队选取了目标检测与跟踪、在线建图、轨迹预测、占据栅格预测等四项任务,作为最终实现安全规划的子模块。

20AC3

整体上,UniAD利用多组query实现了全栈Transformer 的端到端模型。其中目标检测与跟踪模块实现了对动态元素的特征提取、帧间物体跟踪;在线建图模块实现了对静态物体的特征提取、实例级地图预测;轨迹预测模块实现了动静态元素交互与长时序轨迹预测;占据栅格预测模块实现了短时序全场景BEV、实例级预测;最终的规划模块实现基于自车query的轨迹预测和基于占据栅格的碰撞优化。

305BE

陈立研究员进一步对各个模块分别进行了介绍。
UniAD框架使用BEVFormer作为特征提取器,利用其出色的特征提取时序融合能力辅助下游任务。该部分也可以快速替换为其他BEV模型,具有较好的可拓展性。

2DD71

接下来,UniAD参考了MOTR的思想,利用自主更新的query解决了3D tracking模块不可导问题。同时借助Panoptic SegFormer的思想构建了在线建图模块。

2B058

在轨迹预测部分,UniAD建模了智能体之间、智能体与地图元素、智能体与目标点等多种交互关系。并通过非线性优化的方式,同时考虑目标点位置和动力学限制,以解决端到端方案中的上游误差问题。

2AC53

在占据栅格预测中,UniAD在网络内部编码智能体信息,同时构建场景级与智能体级占据语义表征。

1DF0A

对于规划模块,UniAD主要有三个核心设计:以运动轨迹作为先验;依据未来运动命令对BEV特征施加注意力机制;利用占据栅格进行碰撞优化。

21616

陈立研究员进一步介绍了UniAD的实验结果。通过大量的消融实验,得出了各项子模块互相带来增益的结论,验证了UniAD中各模块设计与耦合的合理性与有效性。

2EF18

对于最终的规划任务,基于二维图片输入的UniAD取得了超越基于LiDAR输入的端到端方法的优越性能。

167C5

同时,UniAD在各个子任务上也取得了大幅优于同类型SOTA方法的结果。

2847E

陈立研究员进一步展示了UniAD的可视化结果。各个子任务的预测结果被集成在同一可视化图像中。这些任务结果与注意力热力图展现了UniAD具备障碍物准确感知、给予合理注意力的能力。

78C5C

另一个实例展示了UniAD在目标检测阶段未检测出一个隐蔽的物体,但在规划时仍有效地施加了注意力到相关区域。证明了UniAD具备从上游模块错误中恢复的能力。

69144

通过以上定量和定性结果,可以看到UniAD在规划及其相关子任务中的强大能力。

未来工作展望

最后,李弘扬博士和陈立研究员展望了端到端感知决策一体化模型的未来探索方向:构建海量数据驱动下的自动驾驶大模型,如预测决策多任务大模型、多模态端到端感知大模型等;融合地图感知模块、优化决策规划模块,以实现更精细的模块设计。

CD52

报告结束后,李弘扬博士和陈立研究员与参会的老师和同学们对报告中的技术细节和领域前沿进展进行了热烈的讨论。

项目地址:https://github.com/OpenDriveLab/UniAD

论文地址:https://arxiv.org/abs/2212.10156

文稿撰写 / 李鹏飞

排版编辑 / 王影飘

校对责编 / 黄  


上一条:AIR学术|NIH陆致用教授:用AI改革医学:从PubMed搜索到机器诊断 下一条:AIR学术|清华教授陈国强:嗜盐菌合成生物学和“下一代工业生物技术”

关闭

业务合作:airoffice@air.tsinghua.edu.cn
招生招聘:airhr@air.tsinghua.edu.cn
联系电话:(010)82151160  

办公地点:北京市海淀区清华科技园启迪科技大厦C座12层

官方微信

京ICP备15006448号  |   版权所有©清华大学智能产业研究院