将强化学习应用于自动驾驶领域存在诸多挑战,但是这些问题终有一天会被解决。强化学习具有超越人类的潜力,具有非常广阔的应用前景。
——李升波
活动概况
10月27日下午,第11期AIR学术沙龙在清华大学智能产业研究院(AIR)图灵报告厅如期举行。本期活动荣幸地邀请到了清华大学车辆学院李升波教授为我们做题为《如何将强化学习应用在自动驾驶——谈强化学习技术发展和未来趋势》的报告。
本次讲座由清华大学讲席教授、智能产业研究院(AIR)院长张亚勤主持,活动为线上(视频号、哔哩哔哩)+线下的模式,共计约4300人次观看。
李升波与张亚勤、兰艳艳、詹仙园合影
讲者介绍
李升波,清华大学车辆学院副院长,长聘教授。学习于斯坦福大学,密歇根大学和加州伯克利大学。从事智能网联汽车、强化学习、最优控制与估计等研究。发表SCI/EI论文>130篇,入选ESI高引10篇,学术会议优秀论文奖11次。入选国家万人计划科技创新领军人才、交通部中青年科技创新领军人才、首届北京市基金委杰青、青年长江学者、国家基金委优青等。曾任IEEE ITS学会的全球理事会委员、中国汽车工程学会青工委主任(首任)、IEEE Trans on ITS副主编、 IEEE ITS Mag副主编等。
报告内容
如何将强化学习应用于自动驾驶汽车
智能化是汽车新四化变革的重要方向之一,也是人工智能(AI)的重要应用领域,受到学界和业界的广泛关注。目前,L1和L2级别的智能汽车已经实现商业化应用。具有更高智能性、接近人类驾驶水平的高级别自动驾驶汽车,是该领域每一个企业、每一个团队追求的理想和目标。处于城市交通场景,因为道路结构的高度复杂性、交通流动的高度动态性以及交通参与者的高度随机性等因素,实现L3和L4级的自动驾驶功能十分具有挑战性,这需要更加安全可靠的环境感知能力和更加实时高效的决策控制能力。
如何判断自动驾驶汽车的智能水平呢?从生物大脑入手观察是一个不错的视角。通常的观点是,生物智能性的高低和其大脑神经元的数量密切相关。若以深度神经网络作为智能性的承载体,一个智能体(Agent)的智能性和人工神经网络的规模也有直接关系。目前,用于自动驾驶汽车的神经网络规模大概到达百万或千万级别,但这仍然远远低于典型哺乳动物的神经元数量。更不要说,单个机器神经元的能力远远低于人类神经元的能力。所以,现有的自动驾驶技术远没有达到人类的驾驶智能,仅适用于简单稀疏交通工况,还不能适应城市复杂道路交通场景,并且对未知场景的适应能力也存在一定的不足。
近年,强化学习作为一类进化型学习方法得到了普遍关注。一个典型的例子是围棋智能的突破。谷歌DeepMind的第一代围棋智能(AlphaGo版),采用监督学习与强化学习结合的方式训练落子的决策智能化,使其具备战胜人类职业棋手的能力。电脑下围棋可以打败人类职业棋手,这一里程碑事件是之前大家不敢想象的事情。尤其是AlphaZero这一版本,采用自我更新、自我进化的机制,仅用21天的自我学习就可以战胜之前的AlphaGo版本,这展示出了类似人类学习行为的巨大潜力。
那么什么是强化学习呢?强化学习是一种模仿动物学习行为的自学习决策方法。研究表明:动物(包括人类)是通过不断地探索试错进行学习的,尽量重复带来奖励的行为,尽量避免产生惩罚的行为。实际上强化学习与最优控制是具有密切关联性的,强化学习是寻找最优策略、最大化未来累积奖励的过程,它与最优控制存在本质上的关联性。因此,我们可以将强化学习视作一个最优控制问题,只不过强化学习大多处理随机性环境,而传统的最优控制大多处理确定性环境。按照这一思想,依据强化学习是否基于环境动力学模型,分为基于模型(model-based)和无模型(model-free)两类方法。
同时,按照最优策略的获得方式,又将强化学习分为间接式强化学习(Indirect RL)和直接式强化学习(Direct RL)两大类别。间接式强化学习(Indirect RL)的基本原理是通过求解问题的最优性条件得到最优策略。针对连续时间问题,一般采用哈密顿-雅可比-贝尔曼方程进行求解;针对离散时间问题,则采用贝尔曼方程进行求解。与之不同的是,直接式强化学习(Direct RL)则直接寻找最大化目标函数的参数化策略作为其最优策略。该方法将最优控制问题视作一个优化问题,可以采用数值优化方法进行求解。典型方法是一阶优化方法,即策略梯度法,它沿着目标函数梯度上升的方向,不断地更新策略参数,直到找到最优解。
按照上述两种分类方法,一是有无环境模型,二是问题求解方式,我们可以把现有的主流强化学习算法进行更加清晰的分类,如ADP、Q-learning、A3C、DQN、TRPO、PPO、DDPG、TD3等,均可于这一分类找到所属的位置。值得注意的是,Actor-Critic是强化学习的一个典型架构,实际上它既可以从间接法推导得到,也可以从直接法推导得到。从间接法的观点看,Critic是一步策略评价,Actor是一步策略更新。从直接法的观点看,Actor本身是Policy Gradient的估计过程,而Critic则是该梯度内部的一项,即Value函数的估计。
按照上面的观点,强化学习与模型预测控制(或Planning)同属于求解最优控制问题的一类数值方法。与模型预测控制(MPC)等方法对比,强化学习存在如下优势:1、可解决更大规模的问题:允许超过百维的高维状态输入和动作控制;2、可解决高复杂度的问题:允许求解非线性、非平滑和不可导的问题;3、可以解决随机系统的问题:对于自动驾驶而言,交通参与者和传感器观测值往往是充满随机性的。
然而,强化学习应用在自动驾驶领域,包括工业控制对象,也存在着一系列挑战性问题:1、如何在保证安全性的前提下得到一个可行的最优策略;2、环境探索与数据利用的矛盾性难以解决;3、现有的传感器数据往往是部分可观的或者不确定的;4、奖励信号存在时间或空间的巨大延迟;5、强化学习可视作一个闭环的最优控制系统,算法的收敛性与闭环系统的稳定性通常是高度耦合的;6、强化学习的泛化能力一般是比较差的;7、强化学习适用于求解时不变系统问题,而处理时变系统却存在很大的挑战性。
实际上,我们具有两套将强化学习应用于自动驾驶汽车的途径:第一,先离线训练策略、再在线应用策略,即OTOI方法:将强化学习视作最优控制问题的求解器。或使用模型,或使用预先采集的数据,先离线训练一个最优策略,然后部署到自动驾驶汽车,实现在线控制应用。第二,同时训练和应用策略,即SOTI方法:这是利用强化学习的探索试错机制,通过在线探索环境产生数据,实现自动驾驶策略的在线自我更新。这类方法要求强化学习算法必须进行在线部署,从而进行在线地探索和在线地训练。
这两种方法都存在各自的优缺点。若考虑安全性的问题,OTOI方法在训练过程中是离线进行的,不存在与环境的交互,因此只需要考虑最终在线部署阶段的安全性;而在SOTI方法中,策略在真实环境中在线训练并实时部署,训练中得到的每一个策略都需要考虑安全性的约束。
过去一段时间,清华大学智能驾驶课题组(iDLab)对将强化学习应用于车辆控制任务进行了一系列探索性的研究工作。早期的一个例子是结合TORCS仿真环境,通过端到端学习的方式实现了自动驾驶汽车的车道保持功能,即利用车辆前方图像完成赛道场景的自动驾驶过程。另一个工作是极限工况的车辆自动漂移控制。高速行驶的智能汽车,若发生车辆碰撞或突遇湿滑路面,容易发生操纵失稳,从而引起二次交通事故,因此这也对车辆的操控策略提出了更高的要求。利用强化学习可以得到方向盘和制动踏板的联合控制策略,使得车辆在发生碰撞/车轮打滑等情况后,依然能够平稳地驻停在当前车道,避免车辆存在被甩出道路的危险。这些案例都初步证明了强化学习应用于自动驾驶领域的可行性。
然而对于真实的自动驾驶场景,尤其是城市交通场景,道路几何结构是高度复杂的,存在如立交桥、十字路口、环岛等各种类型的道路情况。交通参与者也是多种多样的,涵盖乘用车、公交车、自行车、电动车、行人等。同时车辆搭载的控制器资源是十分有限的,能耗/成本限制与高计算负担的矛盾比较突出。如何在上述前提下利用强化学习实现高级别自动驾驶汽车的决策与控制呢?这是我们需要思考的问题。
自动驾驶汽车的集成式决控框架(IDC)
很明显,直接采用端到端的方案解决自动驾驶问题,是一件十分困难的事情。我们的做法是先剥离环境感知模块,只用强化学习解决自主决策和运动控制模块。目前,分层式决控框架是自动驾驶系统开发的常用架构,被工业界和学术界所广泛采用,并且也取得了比较理想的效果。以决策和控制两个部分为例,该框架的自然选择是将自动驾驶任务分为上下两层,上层是自主决策,下层是运动控制。同时进一步分解为预测、决策、规划和控制等多个子任务,分别解决各个子任务对应的子问题。分层式决控框架具有问题可拆解、任务可拆分的优点,便于工程化开发的任务分工和组织协调。但是,其模块与模块之间的信息传递不可避免的存在信息丢失的风险,而且各自模块具有自己的优化目标,不同优化目标之间也存在一定的矛盾和冲突,难以进行全局优化,不利于提升自动驾驶汽车的整体智能性。
事实上,强化学习作为一种更强处理能力的最优策略求解器,具备有合并决策和控制两个任务到一个整体,进行统一求解和应用的功能。这样既发挥了强化学习的求解优势,又能够进一步提高自动驾驶系统的智能性。实际上,人类驾驶员也是具有很强的整体性的,我们很难将人类的行为分为哪一部分是自主决策,哪一部分是运动控制。为此,智能驾驶课题组(iDLab)从2018年始,提出并推动使用一类全新的决策与控制架构,称之为集成式决控框架(IDC,Integrated Decision and Control)。与分层式决控框架不同,该框架将决策和控制问题整合为一个约束型最优控制问题,仅包含一个性能指标,一个动力学系统,通过强化学习求解为一个自动驾驶策略。该框架包含静态路径规划和动态最优跟踪两个模块。静态路径规划仅根据静态道路环境信息(如道路几何结构、路侧指示标识、地面指示标识等,但是不包括红绿灯、交通参与者等信息),给出一套可跟踪的参考路径集合(注意是一个参考路径的集合,而不是单条最优的参考轨迹)。而动态最优跟踪则构造为一个跟踪参考路径集合的约束型最优跟踪问题,利用强化学习求解该问题,它的值函数将具有评价不同参考路径性能的能力,实现“自主决策”的功能;它的策略函数则输出油门、刹车、方向盘等控制量,具备“运动控制”的功能。
以十字路口左转和进出环岛的自动驾驶任务为例。静态路径规划模块根据道路拓扑结构、交通规则、路侧/路边指示信息等静态信息给出静态参考路径,静态参考路径包括轨迹的位置信息以及期望速度等信息。动态最优跟踪模块则综合考虑静态、动态道路环境,包括其他交通参与者以及红绿灯的变化情况。首先需要对比多条候选车道的综合性能,从中选择最合适的一条轨迹,并结合道路环境动态调整选择。综合性能涵盖安全性、节能性、通畅性、舒适性、合规性等不同驾驶需求。同时,车辆在运动过程中,动态最优跟踪模块根据周车和交通信号的具体变化输出相应的控制量,以满足上述不同驾驶需求,在整体行驶路线尽可能地跟踪挑选的参考轨迹的基础上,实现实时避撞等合理驾驶行为。IDC与分层式决控框架的区别在于,虽然IDC仍存在静态层与动态层两个模块,但决策智能的核心部分仍处于动态部分的约束性最优跟踪问题的构建与求解中。静态层的存在作用主要是通过全局的、大致的静态轨迹提供较强的先验知识,降低约束问题的求解难度。真正的多目标驾驶动作,循迹、避撞、平滑等需求均集成在动态最优跟踪模块中,且动态层直接输出控制量,整合决策与控制的功能。
特别巧合的是,IDC架构与强化学习可以无缝结合,它的学习过程直接匹配经典的Actor-Critic算法。该算法主要包括值网络(Critic)和策略网络(Actor)的学习过程,状态空间包括静态轨迹信息、自车状态、周围交通参与者的状态、道路信息以及信号灯信息等,动作空间即为自车的控制量。值网络用来评价策略网络的性能,可以作为静态路径规划的评判指标。静态路径规划可以根据值网络的输出结果从候选路径中挑选最优的路径。策略网络可以被视为动态最优跟踪解,根据静态路径选择器所选择的路径优化驾驶性能,并输出车辆的加速度和前轮转角等控制量。
为了实现这一框架的应用,课题组设计并开发了两套工具链:一是大规模自动驾驶汽车仿真软件LasVSim,二是通用最优控制问题求解器GOPS。LasVSim用于支持自动驾驶车辆决控算法和运动控制算法的离线训练,主要功能包括道路地图的导入与生成、交通流自动部署、高保真车辆模型建模、传感器环境感知、决策控制算法二次开发以及多维度性能评估。GOPS用于求解最优控制问题,其以神经网络为载体的策略模块,通过离线求解、在线应用方式大幅度提高计算实时性,同时该工具链旨在实现问题建模、网络训练、仿真验证、代码部署、硬件在环试验的全流程覆盖,为工业界最优控制问题的强化学习求解提供有力支撑。
应用案例
例1. 值分布柔性动作-评价强化学习算法(DSAC)
强化学习利用值函数评估策略网络,并指导策略的更新,从而进行策略的改进与提升。然而现有研究表明,值函数的学习往往是不精准的,DQN和DDQN等off-policy强化学习算法会出现严重的值函数过估计现象,进而会影响策略更新过程,甚至恶化策略的性能。正如DeepMind首席科学家David Silver所说,“不精确的值估计是学习过程中的常态,这将对实际表现产生负面影响。”
标准RL算法利用同一个动作值函数(Q函数)通过最大化算符选择动作并对该动作进行评估,该机制对高估偏差极为敏感,极易引发严重的值过估计问题。为了缓解过估计问题,现有方法通常是引入另一个动作值函数,即double-Q学习机制,在动作值函数更新的过程中,利用另一个值函数评估动作以实现动作选择和策略评估的解耦,或者从二者中选择较小的动作值函数作为评估值。既然可以通过学习两个解耦的值函数来缓解过估计问题,那我们为什么不学习更多的值函数呢?由于学习速度与值函数的数量呈负相关,因此我们的工作旨在学习动作值回报的分布函数(简称值分布),以等效地实现学习无限个值函数。这项工作的核心挑战包括收敛性和最优性的证明,以及其过估计抑制机理的理论分析。
以此为出发点,我们提出了DSAC算法,其借鉴传统Actor-Critic算法更新策略网络和值网络。首先,我们提出了分布式版本的策略迭代框架,在该框架下策略评估和策略改进交替进行。策略评估的优化目标是最小化当前值分布与目标值分布之间的距离。可以证明,分布式动作值函数的策略评估方程是一种压缩映射。根据不动点理论,其收敛性可以得到较好的保证。同时,策略改进的目标是最大化所学值分布的期望。根据策略改进定理,策略性能的提升是单调的。由此,我们最终证明了所提出的分布式策略迭代框架将收敛到最优值分布和最优策略。
此外,我们分析了动作值函数的估计偏差。基于目标动作值分布,推导了动作值分布的更新规则,最后发现动作值分布的估计偏差与动作值分布的方差成反比。由于较大的近似误差和系统随机性通常对应着较大的值分布方差,通过限制动作值分布的最小方差,可以很好地抑制动作值函数的过估计问题。因此,DSAC不仅具有良好的收敛性,也能够有效抑制过估计。
将DSAC算法应用在MuJoCo任务当中,可以看到DSAC算法的值估计偏差近似为零,而其他所有主流强化学习算法或多或少都存在高估或低估的情况。这表明DSAC算法能够准确地估计策略,从而可以更好地指导策略的学习。通过对比平均回报,可以看到DSAC达到了最先进的性能,尤其是在人形机器人这样的复杂任务中。
将DSAC算法部署在工控机中,通过数字孪生系统模拟周车行为。算法在实车试验中完成了车道保持、变道、超车等多种驾驶任务,即使在强烈的人为转向干预下也能很好地完成任务,这展现了算法的鲁棒性与可靠性。
例2. 混合强化学习算法(Mixed Actor-Critic, MAC)
现有的强化学习算法可以分为数据驱动型的强化学习和模型驱动的强化学习两大类,这两种算法都存在各自的优缺点。对于数据驱动型的强化学习,其优点在于交互数据反映了准确的状态转移信息,在数据的支撑下,所有求得的策略具备最优的渐进性能,缺点是算法无法在整个状态空间中进行探索,数据的覆盖范围有限且局部,并且数据的采集成本较高,所以往往会出现过拟合的现象,导致算法的泛化能力差。但是数据驱动型的强化学习往往具有自我学习和自我更新的能力,且是对动力学的准确表征。另一方面,由于难以对环境建立精准的动力学模型,基于模型的强化学习所使用的模型总是存在一定误差,从而会影响算法训练过程。但是如果有完美的动力学模型,便无须额外付出代价通过与环境交互采集数据,就能够显著提高算法的泛化性。但由于难以对环境建立精准的动力学模型,模型驱动型的强化学习所使用的模型总是存在一定误差,从而限制了策略的求解精度。
通过将两种方法取长补短,结合两者的优点,智能驾驶课题组提出了混合强化学习算法MAC。该算法可以处理具有不确定性的状态空间模型,将标称模型作为先验信息,将环境交互所采集的数据作为证据因子,并采用贝叶斯估计的方法得到混合模型的后验分布。最终,MAC通过贝叶斯估计的方式将数据驱动型的强化学习和基于模型的强化学习有机地结合了起来。该方法具有较好的泛化性,可以刻画复杂的动力学模型,也可以提供更为精确的策略梯度,用于指导策略的更新。相比于传统的Actor-Critic算法,MAC增设了一个不断迭代的贝叶斯估计过程,通过不断采集数据并根据模型的先验更新模型的后验,使最终的混合模型的精度不断提升。利用值函数在迭代过程中的单调递减特性,可以证明其最终收敛到最优值函数。
最后通过自动驾驶汽车在十字路口的案例,验证上述算法在集成决策控制框架中的效果。采用离线训练策略、在线应用策略的方法,值网络的训练目标是估计各参考路径的跟踪代价,进而选择参考路径,策略网络的训练目标是跟踪所选择的路径。
搭建仿真环境和实车环境,测试了无保护左转任务中的决策控制效果。其中灰色阴影部分表示自车的感知范围,绿色方框表示周车的感知结果,其与真实位置存在一定偏差。可以看到,自车可以根据道路环境的变化,实时地选择合适的左转路径,同时可以避免与周车碰撞,且左转过程流畅平滑,验证了集成决策控制框架的有效性以及对感知不确定的鲁棒性。
总结
强化学习在自动驾驶领域具有非常广阔的应用前景。通过所提出的集成式决控(IDC)框架,可以有效地集成强化学习算法,实现自我更新、自我进化的能力;同时,学习得到的策略网络较为轻量化,具有更低的在线计算复杂度(与滚动时域优化相比),几乎可以达到毫秒级别的在线实时计算。针对Q函数的过估计问题以及样本采样效率低下的难题,团队提出了DSAC(Distributional Soft Actor-Critic)算法,利用分布式动作值函数,有效地抑制了值函数的过估计问题;所提出的MAC(Mixed Actor-Critic)算法,结合了数据驱动型和模型驱动型两类算法的优势,得到了更为精确的策略梯度以指导策略学习,同时利用后验分布有效地提升了样本使用效率。
精彩视频回顾及完整版PPT下载,请点击:
AIR学术沙龙第11期|李升波:将强化学习用于自动驾驶:技术挑战与发展趋势