基于模型的自动驾驶汽车端到端深度强化学习策略

驾驶哥

2023年7月18日 13:21

浏览：2180 评论：1

作者 | Ammie

真实驾驶场景中，通过观察和互动，使智能驾驶汽车能够积累知识并应对不可预测的情况。我们将智驾汽车的这种对世界运作方式称为“常规认知”，它使智能汽车能够找到自己的方向。对周边环境目标的观察也使自车能够学习并遵守规则。机器学习中的一个类似概念是一种称为模仿学习的方法，它允许模型学习模仿人类在给定任务中的行为。

Wayve作为最先发布最先进的端到端模型的公司，用基于CARLA的模拟数据学习世界模型和车辆驾驶策略，从而使汽车无需高清地图即可实现自动驾驶。其中，基于模型的模仿学习 (MILE) 作为一种新的机器学习模型，更具体地说是一种强化学习架构，可以在离线训练期间学习世界模型和驾驶策略。MILE 可以采用“泛化推理算法”对智驾汽车未来行驶环境进行合理且可视化的想象和预测，并利用这种能力来规划其未来的行动。

前言

由于实际过程中感知到的信息流通常是不完整且嘈杂的，因此AI大模型的应用大脑通过“想象学习”可以来填补这些缺失的信息。这也就解释了为什么AI大模型下的智驾汽车能够在被阳光致盲等情况下仍可以继续驾驶。即使短时间内无法进行视觉观察，仍然可以可靠地预测其下一个状态和行动，以表现出安全的驾驶行为。

类似地，基于模型的驾驶行为学习MILE 可以执行完全根据想象预测的准确驾驶计划，而无需依靠实时的对环境进行视觉观察。实际上MILE通过使用模型中的想象规划，可以执行复杂的驾驶操作，例如驶过环岛、标记停车标志或转向为了避开摩托车手。

从数量上来说，通过在完全循环的设置中运行来衡量预测计划的准确性。在模型可以看到图像观察结果的观察模式和模型必须想象下一个状态和动作的想象模式之间切换，类似于由于阳光眩光而暂时失明的驾驶员。

通过自动驾驶的动态代理和静态环境在 3D 几何中进行推理，MILE 使用每个图像特征的深度概率分布以及深度箱、相机内在和外在的预定义网格，可以将汽车捕获的图像转换到3D空间。这些 3D 特征体素可以通过使用预定义网格操作转换为鸟瞰图，最后一步是映射到一维向量从而压缩有关世界模型的信息，这也是定义编码器过程的一部分。

观察的下一部分将演化出一个与 StyleGAN 架构中发生的情况非常相似的解码器。它是一种应用于编码器输出、鸟瞰图和图像潜在向量不同分辨率的上采样方法。此外，解码器还输出车辆控制。对于时间建模而言，MILE 使用循环神经网络对潜在状态动态进行建模，根据前一个潜在状态预测下一个潜在状态。

环境和其中作用的动态代理的精确模型为改进运动规划提供了巨大的潜力。MILE模型可以根据过去的上下文想象未来的潜在状态，并使用它们来利用学习到的驾驶策略来规划和预测行动。未来状态也可以通过解码器可视化和解释。

在本文中，将介绍基于模型的模仿学习 MILE。该模型可用于学习自动驾驶车辆的协同控制并对世界环境进行动态建模。

基于端到端模型学习概述

端到端的学习过程可以仅根据高维视觉观察预测驾驶命令来提高性能。有条件的模仿学习是学习端到端驾驶策略的一种有效方法，这种方法可以部署在模拟和现实城市驾驶场景中。尽管如此，从高维视觉观察和专家轨迹中学习端到端策略仍然是相对非常困难的。已有一些算法试图通过超越纯粹的模仿学习来克服这些困难。比如提出迭代数据集聚合，其方法是在部署期间可能经历的轨迹收集相应的数据。其次，还可以使用 BeV 语义分割来监督模型，让学习者接触专家数据的综合扰动，以产生更稳健的驾驶策略。从所有车辆中学习（LAV）中不仅可以学习自车行为，还可以学习场景中其他所有车辆的行为，从而提高了样本效率。此外，通过构建一个在强化学习教练来监督和训练相应的智能体。

1、城市场景学习

驾驶本质上需要对环境有几何理解，MILE 首先将图像特征提升到 3D 空间并将其汇集到鸟瞰图 (BeV) 表示中，从而利用 3D 几何作为重要的归纳偏差。世界的演化是通过潜在动力学模型来建模的，该模型从观察和专家行为中推断出紧凑的潜在状态。学习到的潜在状态是输出车辆控制的驾驶策略的输入，并且还可以解码为 BeV 分段以进行可视化并作为监督信号。

相应提升至3D空间的操作可以详细描述如下：

使用逆内函数 K−1和预测深度，像素图像空间中的特征在相机坐标中被改进为 3D针孔相机模型；以自车的惯性中心点，设置刚体运动M将3D相机坐标转换为3D车辆坐标；

剥离不匹配点。在训练时，先验信息被训练为通过 KL 匹配后验信息分歧，但是它们不一定针对稳健的长期未来预测进行优化。通过迭代应用转换模型并整合中间状态，优化状态以实现稳健的多步预测。监督随机展开的先验时间范围（即预测 t + k 处的状态，其中 k ≥ 1）。更准确地说，在训练期间，以概率 pdrop 从先验而不是后验中采样随机状态st，称这种现象为观察丢失。如果将 X 表示为表示先验 k 次的随机变量展开后，X 遵循成功概率 (1 − pdrop) 的几何分布。后验分布被建模为两个高斯分布的混合，其中一个来自先验分布。在训练过程中，一些后验变量被随机丢弃，迫使其他后验变量最大化从输入图像中提取信息。观察 dropout 可以被视为 z-dropout 的全局变体，因为它一起删除所有后验变量。

实际上代理及其行为都不影响环境的这种假设在城市驾驶中很少成立，因此 MILE 使自车能够模拟其他驾驶主体并规划其如何响应自车行动。MILE模型可以根据长期的潜在状态和行动来预测合理且多样化的未来状态。甚至可以在想象中预测整个驾驶计划，以成功执行复杂的驾驶操作，例如通过环岛，或转向避开摩托车手。

MILE使用循环神经网络对时间进行建模，这样可以维护一个总结所有过去观察结果的单一状态，然后在有新观察结果可用时有效地更新状态。这种设计决策对于延迟方面的部署具有重要的好处，而对驱动性能的影响可以忽略不计。

在推理过程中，因为使用循环神经网络对时间进行建模，这样可以维护一个总结所有过去观察结果的单一状态，然后在新观察结果可用时有效地更新状态。这种设计决策对于延迟方面的部署具有重要的好处，而对驱动性能的影响可以忽略不计。

2、3D 场景表示

成功的自动驾驶规划需要能够理解和推理 3D 场景，而这对于单目相机来说可能具有挑战性。一种常见的解决方案是将多个摄像机的信息压缩为场景的单个鸟瞰图。这可以在 3D 中通过学习特征的深度分布提升每个图像的先验识别能力，然后将所有视锥体分散到公共光栅化 BeV 网格中来实现。另一种方法是依靠transformers（时空融合）来学习从图像到鸟瞰图的直接映射，而不需要显式地建模深度。

3、世界模型

基于模型的方法主要在强化学习环境中进行探索，这种方法实际是在完全离线状态下强化学习，并假设在与环境进行在线交互中可以获得奖励。基于模型的模仿学习已成为机器人操作和 OpenAI Gym 中强化学习的替代方案。尽管这些方法不需要获得奖励，但它们仍然需要与环境进行在线交互才能获得良好的性能。

在视频预测中，首先利用从图像观察中学习到的世界模型潜在动态，额外对奖励函数进行建模，并优化他们在世界模型中的策略。当然，本文这里的算法是不假设访问奖励函数，而是直接从离线数据集中吸收学习策略。

此外，以前的方法是对简单的视觉输入进行操作。相比之下，MILE 能够从高分辨率输入观察中学习到复杂城市驾驶场景的潜在动态，这可以很好的确保小细节的感知性能（例如可靠地感知交通信号灯）。

4、轨迹预测

轨迹预测的目标是使用过去的物理状态（例如位置、速度）和场景上下文（例如离线高清地图）来估计动态代理的未来轨迹。世界模型构建了环境的潜在表示，解释了根据自车行为而获得感官输入（例如相机图像）的观察结果。轨迹预测方法仅对动态场景进行建模，而世界模型则对静态和动态场景进行联合推理。在世界模型的学习模型中可以潜在表示移动代理未来轨迹的隐式编码，并且如果我们可以访问未来的轨迹标签，则可以显式进行解码。

这些编码可以预测移动目标的未来轨迹，但没有控制自车的主体。实际上，整个轨迹规划关注的是预测问题，而不是简单的从演示中学习专家行为。从专家的演示中推断出自车代理的未来轨迹，并以某些特定目标为条件来执行新任务，这样也可以共同模拟移动主体和自车的未来轨迹。这里主要通过联合模拟其他动态代理的运动、自车代理的行为以及静态场景来进行轨迹预测。假设访问不到地面真实物理状态（位置、速度）或场景上下文的离线高清地图。也就是这样的先验真值系统并不存在，这里仅使用摄像头检测的方法，可以对城市驾驶环境中的静态场景、动态场景和自我行为进行建模。

基于模型学习的方法论

MILE方法利用3D几何作为归纳偏差，并直接从专家演示的高分辨率视频中学习高度紧凑的潜在空间。MILE 能够想象合理的未来并相应地计划行动，使模型能够在想象中控制车辆。这意味着模型可以在无需访问世界最新观测结果的情况下成功控制车辆。

1、概率生成模型

设 o1:T 为 T 视频帧序列，具有相关的专家动作 a1:T 和地面实况 BeV 语义分割标签 y1:T。通过引入控制时间动态的潜在变量 s1:T 来模拟这些动作的演化。

完整的概率模型由如下方程给出。

假设初始分布参数化为 s1 ∼N (0, I)，通过引入一个变量 h1 ∼δ(0) 作为确定性历史。该转换包括取决于过去历史 ht 和过去状态 st 的确定性更新 ht+1 = fθ(ht, st)；随机更新 st+1 ∼N(μθ(ht+1, at), σθ(ht+1, at)I)，其中，我们将 st 参数化为具有对角协方差的正态分布。通过使用神经网络对这些转换进行建模：fθ是门控循环单元，(μθ,σθ) 是多层感知器。δ为 Dirac delta 函数，gθ为图像解码器，lθ为 BeV 解码器，πθ为策略。

2、MILE模型预测架构

整体的MILE的模型预测架构如下图所示。其中包括了观测网络和推理网络两部分。下面将针对性的对该整体架构进行详细分析。

整个推理框架目标是推断生成观测值 o1:T 的潜在动态 (h1:T, s1:T )，专家操作a1:T和鸟瞰视图标签 y1:T，潜在动态包含确定性历史ht和随机状态st。

相应的推理模型是通过设定参数为φ，估计随机状态的后验分布 q(st|o≤t, a φ(ht, at−1, xt),σφ(ht, at−1, xt)I) 且 xt = eφ(ot)。eφ是观察编码器，它可以将图像二维特征提升到3D空间，从而将它们汇集到鸟瞰图中，并压缩为1D 向量。

生成模型估计主要是在参数为θ条件下，估计t-1时刻随机状态的先验分布：p(st|ht−1, st−1)∼N (μθ(ht, aˆt−1),σθ(ht, aˆt−1) )I)。其中，ht = fθ(ht−1,st−1)为确定性转换，aˆt−1 =πθ(ht−1, st−1) 为预测动作。同时，该模型还估计如下三个模型参数：

观测值 p(ot|ht, st)∼N(gθ(ht,st),I)的分布；
鸟瞰图分割 p(yt|ht, st) ∼Categorical(lθ(ht, st))；
执行动作 p(at|ht, st) ∼Laplace(πθ(ht,st),1)；

最后，是设定推断时间步长，即通过该模型观察T = 2个时间步的输入来推测未来多步的潜在状态和动作。

推理网络框架

MILE实际上是一种基于模型的城市驾驶模仿学习方法，该方法仅从线下专家演示中共同学习驾驶策略和世界模型。利用几何归纳偏差，对高维视觉输入进行操作，MILE 可以预测多样化且合理的未来状态和行动，从而使模型能够按照完全根据想象预测的计划进行驱动。

一个悬而未决的问题是如何从专家数据中推断驾驶奖励函数，因为这将有助于在世界模型中进行明确的规划。另一个途径是自监督，以放松对鸟瞰图分割标签的依赖。自监督可以充分释放世界模型在现实世界驾驶和其他机器人任务中的潜力。

如下图所示，对 MILE 进行了完整的描述。其中，该图中表示状态之间条件依赖性的图形模型。确定性状态和随机状态分别用正方形和圆形表示，观察到的状态呈灰色。生成模型和推理模型的图形模型中显示了模型每个组件的参数数量及训练期间使用的所有超参数。

推理网络是以φ为参数，由两个元素组成：即观测编码器eφ，将输入图像、路线图和车辆控制传感器数据嵌入到低维向量中；后验网络(μφ,σφ)，估计高斯后验概率分布。通过对q(st|o≤t,a<t)进行建模，计算近似真实的后验概率 p(st|o≤t, a<t)。

在训练收敛时，先验分布应该能够对专家数据集中的所有动作状态转换进行建模。图像和 BeV 解码器具有类似于 StyleGAN的架构。预测从学习的常数张量开始，并逐渐上采样到最终分辨率。在每个决议中，潜在状态通过自适应实例归一化注入到网络中。且允许潜在状态以不同的分辨率调制预测。

为了以传统的动力学模型为基础进行有效地泛化学习，需要设计相应的观察编码器。

整个模型状态应该是紧凑的和低维的。因此，需要将高分辨率输入图像嵌入到低维向量中。与图像分类任务类似，简单地将图像编码为一维向量可能会导致性能不佳。相反，在模型中显式编码3D几何则可以归纳偏差。

该方法可以基于如下三个步骤实现降维编码。

1、将图像特征提升至3D

由于自动驾驶是一个几何问题，需要在3D中对静态场景和动态代理进行推理。因此需要首先将图像特征提升到3D。更准确地说，使用图像编码器对图像输入 ot ∈ R3×H×W 进行编码，以提取特征 ut ∈ RCe×He×We。然后，沿着深度箱dt∈RD×He×We 的预定义网格预测每个图像特征的深度概率分布。使用深度概率分布、相机内在参数 K 和外在参数 M生成相机坐标系到世界坐标系的投影矩阵，从而可以将图像特征提升到3D空间：Lift(ut, dt, K−1 ,M)) ∈ RCe×D×He×De×3。

2、BeV空间中的特征集合

使用具有空间范围Hb×Wb和空间分辨率bres的预定义网格将3D特征体素汇总到 BeV 空间，可以得到特征标识bt∈ RCe×Hb×Wb。

在传统的计算机视觉任务中（例如语义分割、深度预测），瓶颈特征通常是空间张量，大约有105-106个特征。对于必须将先验分布（在执行动作的情况下认为会发生的情况）与后验分布（通过观察图像输入实际发生的情况）相匹配的世界模型来说，如此高的维度是令人望而却步的。因此，使用卷积主干网backbone，可以将 BeV 特征 bt 压缩为单个向量xt∈RC。同时，我们发现在BeV空间中压缩比直接在图像空间中压缩显得更加关键。

3、路线图和速度环境目标预测建模

以路线图的形式为智能体提供目标预测基准网络，生成的是一个轻量化的灰度图像，可以指示智驾汽车在交叉路口处往何方导航同行。同时，使用卷积模块对路线图进行编码，可以产生1D特征rt；当前速度用全连接层编码为mt；由此可以得出在每个时间步t，观察嵌入xt可以表示为图像特征、路线图特征和速度特征的串联：xt=[xt,rt,mt]∈RC，其中C= 512。

4、生成网络θ

这里的整个网络数据处理过程是由生成网络参数θ对潜在动态 (h1:T、s1:T)以及 (o1:T , y1:T, a1:T ) 的生成过程进行建模。其中涉及门控循环单元fθ、先验网络(μθ,σθ)、图像解码器gθ、BeV 解码器lθ和策略πθ。

先验网络估计高斯分布的参数为 p(s t |ht−1, s t −1) ∼N (µθ(h t , aˆt−1),σθ(h t , aˆt−1)I) ，其中 h t = f θ (h t −1, s t −1) ，a^t−1=πθ(h t −1, s t −1)。由于先验无法访问t-1时刻地面真实动作a t −1，因此，后验分布估计则使用了学习策略 a^t−1=π θ (h t −1, s t −1) 进行估计。

5、估计散度损失

实际上，无论先验还是后验分布估计都存在一定的散度损失，这类损失的由来可以解释如下。

给定过去的状态 (ht−1, st−1)，目标是预测下一个状态st 的分布。当我们对主动代理进行建模时，这种转换被分解为（i）动作预测和（ii）下一个状态预测。该转移估计将与 at−1 （可以访问地面真实动作）和 ot （图像观察）的后验分布进行比较。先验分布试图匹配后验分布的分歧匹配框架可以确保模型预测解释观察到的数据行为和未来状态。后验与先验的差异衡量了在观察后验时从先验中丢失了多少信息，这种信息丢失也就是我们这里所说的散度损失。

6、未来的状态和行动预测

如前所述，本文介绍的模型可以通过使用学习到的先验策略来推断T+i时刻动作 a^T +i=πθ(hT+i, sT+i)，从而推断出未来的潜在状态，预测下一个确定性状态 hT +i+1=fθ(hT +i,sT+i) 。同时，从先验分布 sT+i+1∼N (µθ(hT+i+1, a^T+i),σθ(hT+i+1, a^T+i)I)，对于i≥0进行过程迭代，得出的结果可应用于潜在空间中生成的较长未来序列，并且该预测的未来序列可以通过解码器可视化。

在驾驶过程中的任何给定时间，存在多种可能的有效行为。例如，驾驶员可以稍微调整速度、决定改变车道或决定跟在车辆后面的安全距离是多少。确定性驾驶策略无法模拟这些微妙之处。在可能有多种选择的模糊情况下，它通常会学习平均行为，这在某些情况下是有效的（例如，平均安全距离和平均巡航速度是合理的选择），但在其他情况下是不安全的（例如，在变道时：比较老练的方式是可以提早或晚变道，而一般的行为是在车道标记上行驶）。

整个未来状态的状态和行动闭环驱动中的完全循环推理涉及如下两步：

(i)重置状态：对于每个新的观察，重新初始化潜在状态并重新计算新状态 [hT,sT]，其中T与训练序列长度匹配。

(ii)完全循环：潜在状态估计是在评估开始时进行初始化的，并且用新的观察结果递归更新。

模型必须学习一种表示形式，该表示形式可以概括为比训练期间使用的 T 多几个数量级的信息集成步骤。实践证明，MILE可以在想象模式下以高达 30% 的驱动力保持相同的驱动性能。该模型可以想象足够准确的闭环驾驶计划。此外，世界模型的潜在状态可以在观察模式和想象模式之间无缝切换。当无法进行观察时，可以通过想象来预测潜在状态的演变，并在可以进行观察时通过图像观察进行更新。

总结

MILE是在城市驾驶数据的离线语料库上进行训练的，无需与环境进行任何在线交互。框架的局限性之一是自适应的手动奖励功能，而不是根据专家驾驶员数据推断。第二个重要的潜在问题是很大程度上依赖鸟瞰图像分割来预测未来状态。第三个潜在的改进是不同场景的模型泛化。模型可以预测多样化且合理的状态和动作，这些状态和动作可以解释性地解码为鸟瞰图语义分割。此外，MILE可以根据完全在想象中预测的计划执行复杂的驾驶操作。因此，整体上MILE模型预测可以对静态场景、动态场景进行建模，以及城市驾驶环境中的智驾车辆行为。

登录后免费查看全文

立即登录

技术邻APP
工程师必备

项目客服
培训客服
平台客服

TOP

基于模型的自动驾驶汽车端到端深度强化学习策略

推荐阅读