Data-model back-end fusion method for automatic driving decision control function

02-05-2023 дата публикации

Номер:

CN116039672A

Автор: YIN YUMING, LU JIANSHAN, WANG YUAN, NING XIAOBIN, WANG ZHENTING, CHEN LIJIE, ZHANG JINHONG

Принадлежит: Zhejiang University of Technology ZJUT

Контакты:

Номер заявки: 72-11-20221663.3

Дата заявки: 30-12-2022

一种面向自动驾驶决策控制功能的数据-模型后端融合方法

附图说明

[0008]

图1是本发明方法主要计算流程示意图；

图2是本发明方法中后端融合因子计算示意图；

图3是本发明方法与经典方法的实施效果对比图。

技术领域

[0001]

本发明属于智能网联汽车领域，涉及一种自动驾驶决策控制方法，为提高自动驾驶汽车在不常见危险工况下的决策控制安全性和最优性，新创的一种车辆动力学模型和驾驶数据后端融合的决策控制方法。

具体实施方式

[0009]

下面结合附图对本发明作进一步描述。

[0010]

参照图1~图3，一种面向自动驾驶决策控制功能的数据-模型后端融合方法，包括以下步骤：

步骤一、驾驶数据采集与数据集构建

利用自动驾驶汽车车载传感器系统，采集典型驾驶工况下的车辆动力学数据和驾驶场景数据，包括各时刻（ t, t+1, t+2, …）的自动驾驶场景状态 s输入和自车决策控制量 a输出；自动驾驶场景状态 s包括自车动力学状态 x（如各运动方向的位置、速度、加速度等）、周围交通环境状态（如周围车辆、行人等交通参与者在道路平面内的位置、速度等）以及道路信息（如道路结构、道路坡度、交通信号等），自车的决策控制量 a包括决策行为（例如车道选择、加减速行为、转向行为等）以及底盘运动控制量 u（例如油门开度、制动强度、方向盘转角等）；利用马尔科夫决策过程定义方式，将相邻时刻数据进行组合并构建驾驶数据库（ s_t, a_t , s_t+1）（ s_t+1, a_t+1, s_t+2）…；

步骤二、车辆动力学理论模型建立与验证

由于自动驾驶汽车决策控制主要关注道路平面内的运动，根据汽车动力学理论知识，建立车辆横纵向动力学离散解析模型，包括纵向、横向、横摆方向的微分动力学模型，例如 x_t+1 =Ax_t +Bu_t +Gξ_t，其中 x为车辆动力学状态向量， u为车辆底盘运动控制向量， ξ为动力学模型线性化误差， A、 B、 G为车辆参数矩阵；然后，使用步骤一所述驾驶数据库中存储的自车动力学数据和最小二乘算法，对车辆动力学模型进行参数辨识和模型精度验证；

步骤三、将自动驾驶决策控制问题构建为集成式的动态优化问题，在每个时刻对决策控制问题进行求解

决策控制问题输入为步骤一所述的自动驾驶场景状态 s，输出为自动驾驶汽车的决策控制量 a，优化目标为自动驾驶汽车在当前驾驶场景下的安全性、舒适性、通畅性和节能性等的多性能加权指标，对于该动态优化问题，不同的求解方式将对应不同的问题构造形式；

步骤四、对上述动态优化问题进行模型预测滚动时域在线优化求解

在当前时刻，决策控制优化目标为未来有限预测时域内的性能加权指标之和 J，利用上述离散车辆动力学模型，利用现有优化问题求解器（例如adam、osqp、ipopt等），以最小化 J为优化目标，求解 N步有限预测时域内的最优控制序列（ u_t, u_t+1, u_t+2, …， u_t+N），该控制序列对应的车辆行为决策与第一个控制量 u_t的组合即为纯模型驱动求解对应的最优决策控制量 u_MB；

步骤五、对上述动态优化问题进行数据驱动强化学习离线优化求解

采用离线优化后在线应用的方式，先利用Actor-Critic强化学习方法（例如DDPG、TD3、SAC等，包含评价函数Critic和动作函数Actor的交替迭代求解），基于上述驾驶数据库中的马尔科夫决策数据进行采样和迭代求解，可以得到未来无穷预测时域内最优性能指标评价函数 Q和当前驾驶场景状态下的最优动作策略，最优动作策略在在线应用过程中的输出即为纯数据驱动求解对应的最优决策控制量 a_DB；

步骤六、计算纯模型驱动求解的置信度

由于步骤四中基于模型求解的决策控制量 u_MB的性能一般取决于在线优化后目标函数 J的大小， J值越小说明求解最优性越好，因此可以利用当前时刻在线计算的 J_t值与标称值` J的差距判断求解的最优性和置信度，计算模型求解置信度 c_x如图2所示， c_x取值范围为[0, 1]，可以使用二次函数表征 c_x与|` J - J_t |的关系；

步骤七、计算纯数据驱动求解的置信度

由于步骤五中基于数据求解的决策控制量 a_MB的性能一般取决于离线优化后评价函数 Q的大小， Q值越大说明求解最优性越好，因此可以利用当前时刻在线应用计算的 Q_t值与标称值` Q的差距判断求解的最优性和置信度，计算数据求解置信度 c_s如图2所示， c_s取值范围为[0, 1]，可以使用二次函数表征 c_s与|` Q - Q_t |的关系；

步骤八、计算模型数据信息的后端融合因子和融合决策控制量。为充分发挥模型信息和数据信息的优势，将两者的最优决策控制量进行互补，计算模型数据融合因子 K_F = c_s / (c_s + c_x )，如图1和2所示，其取值范围也为[0, 1]，利用 K_F将数据信息和模型信息进行后端融合，计算模型数据融合的自动驾驶决策控制量 u_F= u_MB+ K_F * (a_DB - u_MB )。

[0011]

实施例：自动驾驶车辆在部分湿滑路面的曲线行驶控制方案。

[0012]

目前城市道路的沥青或水泥路面经过一段时间使用后，经常会出现部分损坏、部分坑洼、部分异物堆积等情况，导致路面的部分区域在雨雪天气时比较湿滑。这些湿滑路面区域的轮胎附着系数和附着力将明星降低，而且湿滑区域的位置出现比较随机。因此，自动驾驶车辆在部分湿滑路面上行驶的控制难度较大，容易发生侧滑、侧翻、横向旋转等不稳定不安全状态，且现有方法尚未能很好解决这种情况下的安全行驶控制。

[0013]

本发明提出的面向自动驾驶决策控制功能的数据-模型后端融合方法可以较好的同时利用车辆动力学信息和驾驶数据信息，是这类难度较大的自动驾驶控制任务的可选求解方法，将具有较好的决策控制性能。

[0014]

本实施例所考虑的自动驾驶汽车在部分湿滑路面的曲线行驶控制场景如下：一辆前轮转向、后轮驱动、独立悬架的B级轿车，需要设计自动驾驶算法对其转向系统进行控制，在一条有高低起伏、弯道和湿滑区域的道路上安全行驶。

[0015]

根据本发明内容实施步骤，取得的实施效果如图3所示，对比了纯模型驱动的决策控制、纯数据驱动的决策控制以及本发明中模型-数据融合的决策控制效果。可以看出，在本实施例的部分湿滑路面的曲线行驶工况中，本发明方法的车辆路径跟踪效果比其他两种方法更好，且避免了车辆动力学模型在路面湿滑条件下不准确导致的横摆角速度失误。

[0016]

本说明书的实施例所述的内容仅仅是对发明构思的实现形式的列举，仅作说明用途。本发明的保护范围不应当被视为仅限于本实施例所陈述的具体形式，本发明的保护范围也及于本领域的普通技术人员根据本发明构思所能想到的等同技术手段。

背景技术

[0002]

现有自动驾驶决策控制技术大多基于人类驾驶经验规则或车辆动力学理论模型进行算法设计，利用启发式规则或车辆运动特性信息求解决策和控制输出，所开发的决策控制算法对较常见的自动驾驶工况具有一定的适用性。目前常用的决策控制方法包括专家决策系统、PID控制、模糊规则控制、模型预测控制等。但在实际自动驾驶过程中，现有决策控制算法经常无法适应于道路行驶条件的不确定性和交通驾驶环境的不确定性，导致自动驾驶汽车的决策控制性能减弱甚至对道路交通安全造成严重威胁。

[0003]

现有的自动驾驶决策控制技术主要存在以下缺点：第一、基于人类驾驶经验规则设计，导致决策控制层级繁杂，算法维护和更新成本高；第二，基于车辆动力学理论模型设计，决控算法性能对模型精度依赖性强，通常只适用于线性状态区域；第三，单纯使用驾驶经验或理论模型信息的决控算法对信息利用不充分，缺乏对道路行驶条件不确定性和交通驾驶环境不确定性的设计，在较少出现的场景下自动驾驶性能差。

发明内容

[0004]

为了克服已有技术的不足，本发明提供了一种面向自动驾驶决策控制功能的数据-模型后端融合方法，能够结合现有技术方案的优势且方便实际工程应用，旨在保证常见工况下决控性能的同时，提高不常见危险工况下的安全性和决控最优性。。

[0005]

本发明解决其技术问题所采用的技术方案是：

一种面向自动驾驶决策控制功能的数据-模型后端融合方法，包括以下步骤：

步骤一、驾驶数据采集与数据集构建

利用自动驾驶汽车车载传感器系统，采集典型驾驶工况下的车辆动力学数据和驾驶场景数据，包括各时刻（ t, t+1, t+2, …）的自动驾驶场景状态 s输入和自车决策控制量 a输出；自动驾驶场景状态 s包括自车动力学状态 x、周围交通环境状态以及道路信息，自车的决策控制量 a包括决策行为以及底盘运动控制量 u，利用马尔科夫决策过程定义方式，将相邻时刻数据进行组合并构建驾驶数据库（ s_t, a_t , s_t+1）（ s_t+1, a_t+1, s_t+2）…；

步骤二、车辆动力学理论模型建立与验证

由于自动驾驶汽车决策控制主要关注道路平面内的运动，根据汽车动力学理论知识，建立车辆横纵向动力学离散解析模型，包括纵向、横向、横摆方向的微分动力学模型； x_t+1 =Ax_t +Bu_t +Gξ_t，其中 x为车辆动力学状态向量， u为车辆底盘运动控制向量， ξ为动力学模型线性化误差， A、 B、 G为车辆参数矩阵；然后，使用步骤一所述驾驶数据库中存储的自车动力学数据和最小二乘算法，对车辆动力学模型进行参数辨识和模型精度验证；

步骤三、将自动驾驶决策控制问题构建为集成式的动态优化问题，在每个时刻对决策控制问题进行求解

步骤四、对上述动态优化问题进行模型预测滚动时域在线优化求解

在当前时刻，决策控制优化目标为未来有限预测时域内的性能加权指标之和 J，利用上述离散车辆动力学模型，利用现有优化问题求解器，以最小化 J为优化目标，求解 N步有限预测时域内的最优控制序列（ u_t, u_t+1, u_t+2, …， u_t+N），该控制序列对应的车辆行为决策与第一个控制量 u_t的组合即为纯模型驱动求解对应的最优决策控制量 u_MB；

步骤五、对上述动态优化问题进行数据驱动强化学习离线优化求解

采用离线优化后在线应用的方式，先利用Actor-Critic强化学习方法，基于上述驾驶数据库中的马尔科夫决策数据进行采样和迭代求解，可以得到未来无穷预测时域内最优性能指标评价函数 Q和当前驾驶场景状态下的最优动作策略，最优动作策略在在线应用过程中的输出即为纯数据驱动求解对应的最优决策控制量 a_DB；

步骤六、计算纯模型驱动求解的置信度

由于步骤四中基于模型求解的决策控制量 u_MB的性能一般取决于在线优化后目标函数 J的大小， J值越小说明求解最优性越好，因此可以利用当前时刻在线计算的 J_t值与标称值` J的差距判断求解的最优性和置信度，计算模型求解置信度 c_x， c_x取值范围为[0, 1]，使用二次函数表征 c_x与|` J - J_t |的关系；

步骤七、计算纯数据驱动求解的置信度

由于步骤五中基于数据求解的决策控制量 a_MB的性能一般取决于离线优化后评价函数 Q的大小， Q值越大说明求解最优性越好，因此可以利用当前时刻在线应用计算的 Q_t值与标称值` Q的差距判断求解的最优性和置信度，计算数据求解置信度 c_s， c_s取值范围为[0,1]，使用二次函数表征 c_s与|` Q - Q_t |的关系；

步骤八、计算模型数据信息的后端融合因子和融合决策控制量

为充分发挥模型信息和数据信息的优势，将两者的最优决策控制量进行互补；计算模型数据融合因子 K_F = c_s / (c_s + c_x )，其取值范围也为[0, 1]，利用 K_F将数据信息和模型信息进行后端融合，计算模型数据融合的自动驾驶决策控制量 u_F= u_MB+ K_F * (a_DB - u_MB )。

[0006]

进一步，所述步骤一中，所述自车动力学状态 x包括各运动方向的位置、速度和加速度，所述周围交通环境状态包括周围交通参与者在道路平面内的位置和速度，所述道路信息包括道路结构、道路坡度和交通信号，所述决策行为包括车道选择、加减速行为和转向行为，所述底盘运动控制量 u包括油门开度、制动强度和方向盘转角。

[0007]

本发明的有益效果主要表现在：

1、在典型自动驾驶场景下，通过驾驶数据信息和动力学模型信息的融合，利用模型信息保证决策控制功能的基本性能和鲁棒性，并结合数据信息提高决策控制功能的最优性；

2、利用所采集驾驶数据的多样性，增加自动驾驶决策控制功能的场景覆盖范围，并利用数据的真实性，提高实际应用过程中的安全性；

3、利用驾驶数据信息的不断更新能力和所用强化学习方法的迭代学习能力，可以结合车云协同技术实现自动驾驶决策控制能力的学习进化。

The invention discloses a data-model back-end fusion method for an automatic driving decision control function. The method comprises the following steps: step 1, acquiring driving data and constructing a data set; 2, establishing and verifying a vehicle dynamics theoretical model; 3, constructing an automatic driving decision control problem into an integrated dynamic optimization problem, and solving the decision control problem at each moment; 4, performing model prediction rolling time domain online optimization solution on the dynamic optimization problem; step 5, performing data-driven reinforcement learning off-line optimization solution on the dynamic optimization problem; 6, calculating the confidence coefficient of pure model driven solution; 7, calculating the confidence coefficient of pure data driven solution; and 8, calculating a rear-end fusion factor and a fusion decision control quantity of model data information. According to the method, the safety and the decision control optimality under the uncommon dangerous working conditions are improved while the decision control performance under the common working conditions is ensured.

1.一种面向自动驾驶决策控制功能的数据-模型后端融合方法，其特征在于，所述方法包括以下步骤：

步骤一、驾驶数据采集与数据集构建

利用自动驾驶汽车车载传感器系统，采集典型驾驶工况下的车辆动力学数据和驾驶场景数据，包括各时刻（t, t+1, t+2, …）的自动驾驶场景状态s输入和自车决策控制量a输出；自动驾驶场景状态s包括自车动力学状态x、周围交通环境状态以及道路信息，自车的决策控制量a包括决策行为以及底盘运动控制量u，利用马尔科夫决策过程定义方式，将相邻时刻数据进行组合并构建驾驶数据库（s_t, a_t , s_t+1）（s_t+1, a_t+1, s_t+2）…；

步骤二、车辆动力学理论模型建立与验证

由于自动驾驶汽车决策控制主要关注道路平面内的运动，根据汽车动力学理论知识，建立车辆横纵向动力学离散解析模型，包括纵向、横向、横摆方向的微分动力学模型；x_t+1=Ax_t+Bu_t+Gξ_t，其中x为车辆动力学状态向量，u为车辆底盘运动控制向量，ξ为动力学模型线性化误差，A、B、G为车辆参数矩阵；然后，使用步骤一所述驾驶数据库中存储的自车动力学数据和最小二乘算法，对车辆动力学模型进行参数辨识和模型精度验证；

步骤三、将自动驾驶决策控制问题构建为集成式的动态优化问题，在每个时刻对决策控制问题进行求解

决策控制问题输入为步骤一所述的自动驾驶场景状态s，输出为自动驾驶汽车的决策控制量a，优化目标为自动驾驶汽车在当前驾驶场景下的安全性、舒适性、通畅性和节能性等的多性能加权指标，对于该动态优化问题，不同的求解方式将对应不同的问题构造形式；

步骤四、对上述动态优化问题进行模型预测滚动时域在线优化求解

在当前时刻，决策控制优化目标为未来有限预测时域内的性能加权指标之和J，利用上述离散车辆动力学模型，利用现有优化问题求解器，以最小化J为优化目标，求解N步有限预测时域内的最优控制序列（u_t, u_t+1, u_t+2, …，u_t+N），该控制序列对应的车辆行为决策与第一个控制量u_t的组合即为纯模型驱动求解对应的最优决策控制量u_MB；

步骤五、对上述动态优化问题进行数据驱动强化学习离线优化求解

采用离线优化后在线应用的方式，先利用Actor-Critic强化学习方法，基于上述驾驶数据库中的马尔科夫决策数据进行采样和迭代求解，可以得到未来无穷预测时域内最优性能指标评价函数Q和当前驾驶场景状态下的最优动作策略，最优动作策略在在线应用过程中的输出即为纯数据驱动求解对应的最优决策控制量a_DB；

步骤六、计算纯模型驱动求解的置信度

由于步骤四中基于模型求解的决策控制量u_MB的性能一般取决于在线优化后目标函数J的大小，J值越小说明求解最优性越好，因此可以利用当前时刻在线计算的J_t值与标称值`J的差距判断求解的最优性和置信度，计算模型求解置信度c_x，c_x取值范围为[0, 1]，使用二次函数表征c_x与|`J - J_t |的关系；

步骤七、计算纯数据驱动求解的置信度

由于步骤五中基于数据求解的决策控制量a_MB的性能一般取决于离线优化后评价函数Q的大小，Q值越大说明求解最优性越好，因此可以利用当前时刻在线应用计算的Q_t值与标称值`Q的差距判断求解的最优性和置信度，计算数据求解置信度c_s，c_s取值范围为[0, 1]，使用二次函数表征c_s与|`Q - Q_t |的关系；

步骤八、计算模型数据信息的后端融合因子和融合决策控制量

为充分发挥模型信息和数据信息的优势，将两者的最优决策控制量进行互补；计算模型数据融合因子K_F = c_s / (c_s + c_x)，其取值范围也为[0, 1]，利用K_F将数据信息和模型信息进行后端融合，计算模型数据融合的自动驾驶决策控制量u_F= u_MB+ K_F * (a_DB - u_MB)。

2.如权利要求1所述的面向自动驾驶决策控制功能的数据-模型后端融合方法，其特征在于，所述步骤一中，所述自车动力学状态x包括各运动方向的位置、速度和加速度，所述周围交通环境状态包括周围交通参与者在道路平面内的位置和速度，所述道路信息包括道路结构、道路坡度和交通信号，所述决策行为包括车道选择、加减速行为和转向行为，所述底盘运动控制量u包括油门开度、制动强度和方向盘转角。

CPC - классификация

B B6 B60 B60W B60W2 B60W20 B60W205 B60W2050 B60W2050/B60W2050/0 B60W2050/00 B60W2050/000 B60W2050/0005 B60W2050/003 B60W2050/0031 B60W5 B60W50 B60W50/B60W50/0 B60W50/00 B60W6 B60W60 B60W60/B60W60/0 B60W60/00 B60W60/001 B60W60/0015 Y Y0 Y02 Y02T Y02T1 Y02T10 Y02T10/Y02T10/4 Y02T10/40

IPC - классификация

B B6 B60 B60W B60W5 B60W50 B60W50/B60W50/0 B60W50/00 B60W50/1 B60W50/14 B60W6 B60W60 B60W60/B60W60/0 B60W60/00 G G0 G06 G06F G06F1 G06F18 G06F18/G06F18/2 G06F18/25

Получить PDF