姚丹亚清华大学清华大学研究成果:如何用博弈论解决自动驾驶路口的会车决策问题?

2017-08-20

字体:

大中小

浏览:

文章简介：雷锋网新智驾按:4月24日,雷锋网(公众号:雷锋网)新智驾联合MMC在2017年上海车展举办"构建智能驾驶的关键"主题沙龙,本文来自清华大学自动化系统工程研究所教授姚丹亚的分享.本文讲述了V2X技术在自动驾驶中的一个重要应用场景,即自动驾驶汽车在路口会车时的通行决策问题.*清华大学自动化系统工程研究所教授姚丹亚在上海车展新智驾&MMC沙龙现场有一篇来自清华大学的论文名叫<基于完全信息动态博弈的无灯控交叉口的车辆协同驾驶模型>(作者:杨卓,姚丹亚),它试着解决了一个可

雷锋网新智驾按:4月24日,雷锋网(公众号:雷锋网)新智驾联合MMC在2017年上海车展举办“构建智能驾驶的关键”主题沙龙,本文来自清华大学自动化系统工程研究所教授姚丹亚的分享。本文讲述了V2X技术在自动驾驶中的一个重要应用场景,即自动驾驶汽车在路口会车时的通行决策问题。

*清华大学自动化系统工程研究所教授姚丹亚在上海车展新智驾&MMC沙龙现场

有一篇来自清华大学的论文名叫《基于完全信息动态博弈的无灯控交叉口的车辆协同驾驶模型》(作者:杨卓,姚丹亚),它试着解决了一个可能很多人都想过但还没有解决的问题,那就是使自动驾驶汽车在路口会车时相互协调,最终彼此配合完成通行决策。

你可以将它看作V2X助力自动驾驶决策的应用之一。对于V2X对自动驾驶的作用,人们谈得更多的是V2X在环境感知中的作用,即除汽车自身的传感器感知外,借助V2X完成更大范围的环境感知。

但V2X还有一个重要作用,就是协同决策。目前我们能做到在自主感知的基础上决策,但V2X环境使“群决策”成为可能,在可能在未来会是自动驾驶中的一个重要应用。

如何基于V2X实现群决策?以一个具体的场景为例,即无信号交叉路口的车车协同。两辆车抵达路口,在没有控制中心的情况下,听谁的?它们之间是一个博弈的关系,要通过博弈,保证双方安全又顺利地通过交叉路口。

首先,做一个简单的场景描述。

1、存在参与车辆,左边驶来一辆车,下方驶来一辆车,已知彼此的速度、加速度和位置,以及达到路口会车点的距离。

2、路口为无信号交叉路口,即在没有信号灯控制。

3、存在V2X环境,车车间可以进行交互。

以上是前提假设。接下来将问题拆分。

第一,判断车辆间是否存在冲突。我们选择一个指标来描述这个冲突,这个指标就叫作“冲突时间差”,即两辆车到达冲突点的时间差值。该差值越小,就越有可能相撞,如为零则相撞,如差值很大,则代表在完全不同的时刻通过交叉点,定不会相撞。

第二,如果存在冲突,如何提前避免。在这个部分要考虑的因素很多,为了保证安全,当两辆车存在冲突时,需要用一个算法保证它们最后不相撞。因此,二者通过路口可以看成一个博弈问题。博弈包括三个要素。

要素一:对象,要存在博弈双方,此处的对象是车辆。

要素二:策略,忽略具体的油门、刹车等不同操作,用一个“加速度”来作为各种操作的表现形式,加速度构成了策略。

要素三:收益,需要定义博弈的收益。我们在模型里定义了三种收益,即安全、快速、舒适。安全是首要需求,即不能撞车;快速指的是使车辆尽快通过路口;舒适指符合人的驾驶习惯,不能过度加速和减速,保证驾驶舒适。

以上就是一些决策的基本场景假设。

基于此,两辆车的路口博弈在数学上可以看作一个有约束的多目标规划问题。即,将不同加速度组合的情况下,使获得的收益“Ω”达到最大。其中涉及一些数学问题,如多重纳什均衡、求最优解等,我们在这个模型中是用遗传算法求取最优解。

下面就具体地来计算这个问题。

对于两辆车,首先要判断其是否进入冲突区。博弈系统的实例模型如下所示,红点表示冲突点(碰撞的点),通过车辆到达冲突点的时间差判断是否进入冲突区域。

*出自该模型作者曾发表的论文

若两辆车并未进入冲突区,则不需要博弈,正常行驶即可。一旦进入冲突区,博弈即开始,通过博弈使得收益最大。前面讲到三个收益指标(安全、快速、舒适),此时就要具体定义这三个指标。

1、安全性指标。安全性指标指已到达冲突点的时间差,在这个模型中,该差值一定要大于某个给定的阈值,才能确保安全。这个公式比较简单,基本是中学时候关于距离、速度、时间的简单公式。

2、快速性指标。指的是两个周期内速度的变化,是当前时刻加速度值的直接反应。

3、舒适性指标。舒适性指标其实可以直接用加速度的绝对值来表示,绝对值越大,舒适型越差,在这个模型中我们基本选择0.25G加速度指标来进行博弈。当然,前提还是要安全,如果要发生碰撞了,那么舒适性指标是可以牺牲的。此外,舒适性指标也定义了一些不良加速度行为,如加速度增幅达到200%,或是该加速时变成反向加速度等。

对于以上三个收益值,需要做一个标准化的工作。三种数据的量纲不同,有的是时间,有的是加速度,如何求和呢?这其中就涉及到标准化问题。这里不具体解释,基本的计算方法是将当前值减去期望值除以标准差。最后,需要用到遗传算法,尽可能得到全局最优解。

仿真实验对于这套理论,我们还没有用在实车控制中,只是进行了仿真实验。这是个具体的仿真例子。两辆车初始速度分别为60km/h和50km/h,距离冲突点的距离分别为250米和150米,设定约束条件:最大速度不能超过70km/h,最小速度是零(即停车),加速度值控制在±0.3G之间。用于求解的遗传算法在此不赘述,它主要用于获得最优解的。下图,是两车路口会车的仿真实验结合曲线图。

*出自该模型作者曾发表的论文

从上图可以看出,这次仿真实验得到了蛮有意思的结果。在这个场景下,两辆车出现了两次博弈的过程。第一次,计算得出到冲突点的时间差小于给定阈值,进行了一轮博弈后,冲突危险解除,判断安全后又开始自由驾驶;自由驾驶一段时间以后又进入了一次博弈过程,最后直到车辆安全通过路口。

上面的图给出了许多博弈曲线。第一排曲线是收益曲线,红色、蓝色代表两辆车分别的收益,绿色表示两辆车的总收益。第二排是加速度曲线,拿加速度曲线来说,博弈的效果不是特别好,因为跳动很大,博弈算法还有些需要完善的地方。第三排是速度曲线。

最后一排的碰撞时间差(TDTC)。我们为TDTC设置一个阈值,当TDTC小于阈值的时候,就会告知存在碰撞风险,开始博弈。而这个过程是变化的,一旦TDTC超出阈值,就证明没有风险,双方就可以自由驾驶。最后车辆安全驶离交通路口,这是一个完整的博弈过程。

在一些具体参数上,主要考虑三点。

第一,收益。如图,对于第一辆车而言,它得到的是负收益,第二辆车是正收益,我们的博弈规则,是将二者相加,尽量使得整体收益最大。

第二,高速度占比和不良加速度。

第三,收益函数的系数。这是一个很重要的参数,这个系数会直接影响最后博弈的效果。具体的确定的方法,我认为是值得研究的。比如,α大是更强调安全,β大是强调快速性,γ大是强调舒适性,看你如何选择评估方式。

总结该模型的研究,考虑到了驾驶安全、舒适等指标之间的博弈和决策,避免碰撞是最重要的部分,同时也要尽可能避免那些降低舒适性的操作。未来,通过丰富策略集,可以在模型的基础上,有更多方向、更多方式的相关研究。

同时,群决策算法是一个亮点。刚才只是两辆车的模型,我们的博士生还在研究路口多车博弈的通用模型。

当然,我们现在的实验还在仿真基础上,不过也在做一些实用的产品。我们课题组和一个叫作星云互联的公司合作,开发了一些V2X的产品,如智能车载终端、路侧通信机、路侧主机等,其中内置了多种通信模块,支持多种通信方式接入,完成车车、车路之间的数据交互。

目前我们的产品,主要应用在各种自动驾驶和智能驾驶测试场,同时,还推出了了一些实际应用。例如我们在校园公交系统中装入了路侧系统、校园公交车上安装了车载装置,用以测试和积累数据。此外,我们还在芜湖交警支队的支持下,在中心城区路口建设了V2X基础设施。之后,我们还和很多的企业和测试场开展更多的合作,在实际的项目中进行测试。

雷锋网推荐阅读:让汽车与万物连接起来的V2X技术,将如何改变自动驾驶行业?

上一篇：袁雨萱一年级袁雨萱是谁个人资料微博一年级大学季袁雨萱和佟大为吵架引热议

下一篇：涵江姚丹姚丹江调任中部战区空军政治部副主任

免责声明： 本文仅代表作者个人观点，与魔女网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。