《决策规划在自动驾驶系统中的挑战与探索-梁亚雄的副本.pdf》由会员分享,可在线阅读,更多相关《决策规划在自动驾驶系统中的挑战与探索-梁亚雄的副本.pdf(34页珍藏版)》请在三个皮匠报告上搜索。
1、决策规划在自动驾驶系统中的挑战与探索梁亚雄 Pony.ai Tech Lead Manager2021.11.261Agenda什么是决策规划决策规划的挑战与上下游模块的耦合指标系统与评估系统不同等级系统下的区别决策规划的探索和未来方向3自动驾驶系统概览自动驾驶系统概览4自动驾驶软件模块自动驾驶软件模块传感器及硬件传感器及硬件激光雷达毫米波雷达 产品层产品层自动驾驶系统车载运算车辆驱动 高精地图及定位 数据及自研软件系统架构传感器融合感知预测决决策策规规划划控制车辆平台接口导航模块高分辨率摄像头小马智行供应商/合作伙伴决策规划模块决策规划模块输入地图(路网)导航路线(全局规划)障碍物及其预测行
2、为交通信号灯状态定位、车辆状态等输出轨迹:t (x,y,z),即时间到位置的函数5当我们知道了附近有行人、骑自行车的人以及卡车,我们现在将要左转,该怎么办?什么是决策什么是决策需要决策的场景抢行还是让行是否要冲黄灯在哪两辆车之间变道、并线是否要主动变道是从左还是右绕行前方障碍物决策是规划的一部分限定规划轨迹的解空间可解释、更宏观的规划6是否让行行人?是否绕过前方车辆?黄灯刚亮,是否通过路口?如何规划轨迹如何规划轨迹轨迹规划是 PSPACE-hard 的,不易直接求解多种近似方法图搜索增量搜索(采样)变分法(数值优化)举例:行人横穿马路假设我们是有轨电车t-(x,y)变为 t-s先做决策:让行或
3、抢行离散采样后解优化问题7tsts抢行让行Agenda什么是决策规划决策规划的挑战与上下游模块的耦合指标系统与评估系统不同等级系统下的区别决策规划的探索和未来方向8决策规划复杂场景处理决策规划复杂场景处理-无保护左转无保护左转9Agenda什么是决策规划决策规划的挑战与上下游模块的耦合指标系统与评估系统不同等级系统下的区别决策规划的探索和未来方向10与上游模块的耦合与上游模块的耦合-感知感知感知并不是非黑即白的红绿灯被遮挡盲区(包括追踪丢失)时滞与平滑的权衡语义理解11封的是哪条车道?盲区(鬼探头)会不会刚好要变红灯了?与上游模块的耦合与上游模块的耦合-预测预测预测与决策规划的本质问题是类似的
4、给定周围的环境决策规划:自车怎么开预测:其他车怎么开如果预测是完美的世界的发展与我无关我被动应激反应就好12我给准了还需要决策做啥?决策规划预测轨迹能不能给准点啊?预测if(这么开会撞)让行 else 抢行预测这人会匀速直线运动穿马路决策规划与上游模块的耦合与上游模块的耦合-预测预测预测是一个概率问题意图预测与轨迹预测强交互场景下与决策规划的协调预测的真值是主观的还是客观的客观:这个车最后有没有切入主观:我觉得这个车是不是想切入13预测:我只知道他要过马路,但具体怎么过臣妾预测不到啊!预测:这个车最后虽然没切入,但我真的觉得它是想切入的啊!与下游模块的耦合与下游模块的耦合-控制控制规划和控制之
5、间的接口:轨迹 t (x,y)规划的要求:轨迹应当是可实现的控制的目标:应当以尽可能小的误差跟随轨迹控制误差不可避免规划对车辆的建模控制对车辆的建模外部环境影响(风、路面等)控制误差和舒适性的权衡容忍误差大:可能不安全追求误差小:可能不舒适14你等等别急,我正在换档!决策规划加速啊,速度怎么起不来?控制Agenda什么是决策规划决策规划的挑战与上下游模块的耦合指标系统与评估系统不同等级系统下的区别决策规划的探索和未来方向15指标系统指标系统MPI(miles per intervention)不是一个足够好的指标路测环境不断变化安全员是主观的一些观察节假日的亦庄车流量很小每次开学车流量都会变大
6、冬天自行车少了,车多了安全员之间的 MPI 可以差非常多条件不同条件不同,MPI 几乎没有可比性几乎没有可比性!16“教练,我开的时候你最好别踩副刹车”电影飞驰人生指标系统指标系统-影响因素影响因素消除指标的环境影响交通流(车流量、人流量等)天气(雨、雪、雾、沙尘等)临时事件(施工、事故、交通管制等)17同一个无保护路口,高峰/非高峰时难度可以差别很大指标系统指标系统-影响因素影响因素消除指标的主观性不应依赖接管统计应当依赖算法检测指标的维度安全舒适高效18巴顿 240 cm 挑战如何衡量人的安全感?加速度曲线颠簸(井盖)急刹评估系统评估系统产品迭代依赖如何评判一个新 feature 的效果?
7、如何评判一个新版本的好坏?通过实际路测验证昂贵低效受指标系统影响需要通过仿真系统验证/评估数据集仿真系统的可信度仿真中指标系统19Waymo 的仿真系统评估系统要素评估系统要素-数据集数据集数据集通常有两类来源完全虚拟的、人造的场景路测中遇到后收集的场景数据集很可能存在 bias20旧算法在实际路测中的效果10%需要更激进30%需要更保守60%处理得不错旧算法在数据集上的表现30%需要更激进10%需要更保守60%处理得不错假设新算法会让驾驶行为更激进:能解决所有需要更激进的场景但会让 1/3 处理得不错的场景变成需要更保守的场景新算法在数据集上的表现0%需要更激进30%需要更保守70%处理得不
8、错新算法在实际路测中的效果0%需要更激进50%需要更保守50%处理得不错评估系统要素评估系统要素-仿真系统的可信度仿真系统的可信度保真度可重现性动力学模型21原始 agentSmart agentSmart agent需要对自动驾驶车的行为有合理的反应岂不是又回到了决策规划问题?怎样的 smart agent 行为是合理的?评估系统要素评估系统要素-仿真中的指标系统仿真中的指标系统评价决策规划算法的好坏真值是主观的仿真系统里没有人接管依然需要从安全、舒适、高效三方面客观评估22从左绕,从右绕,还是骑过去?实际观察结果:各种方式都有安全员1:对面这车起步太慢了,我们先过没问题安全员2:左转让直行
9、,还是应该让Agenda什么是决策规划决策规划的挑战与上下游模块的耦合指标系统与评估系统不同等级系统下的区别决策规划的探索和未来方向23L2 与与 L4 系统的差异系统的差异处理潜在危险的 precision/recall安全与体验的权衡L2:保证用户体验-提升安全性L4:保证安全性-提升用户体验Precision/recall 双高任何时候都是不易的随着技术提升,未来技术上的边界会逐渐模糊安全、舒适、高效三高也是不易的24高 precision高 recall高 recall高 precisionL2 系统L4 系统Robotruck 和和 Robotaxi 的差异的差异ODDRobotru
10、ck:高速干线Robotaxi:城区路网Robotruck 真的更容易吗?“场景简单”的含义碰撞能量:mv2m 很大,v 也很大对可靠性的要求25货车:mv2 0.5*20 t*(80 km/h)2 5000 kJ乘用车:mv2 0.5*2.5 t*(60 km/h)2 350 kJ14 倍从从 L4/L5 级系统出发的优势级系统出发的优势研发专注于最难的问题首先要见过难的问题考虑收集高质量数据的成本市中心 vs.郊区城区 vs.高速中国 vs.美国多城市 vs.单城市“降维打击”寻找落地场景26地点平均行驶多远与自行车/电动车交互一次北京亦庄 500 m广州南沙 30 km美国 Irvine
11、 10 km高速干线?Agenda什么是决策规划决策规划的挑战与上下游模块的耦合指标系统与评估系统不同等级系统下的区别决策规划的探索和未来方向27决策规划的探索和未来方向决策规划的探索和未来方向强交互、复杂场景的处理是核心决策规划算法没有银弹探索需要百花齐放数据驱动的完整评估系统是关键加速探索迭代28研发研发路测数据持续反馈新的算法/策略研发仿真仿真虚拟环境+真实环境完整的评估系统路测路测封闭场地+公开道路自动数据收集/分析数据驱动的数据驱动的产品迭代闭环产品迭代闭环决策规划模块间的协调决策规划模块间的协调需要一套好的软件架构与感知、预测共同解决特定问题有能力处理同时与多个物体的交互有能力处理
12、场景重叠的复杂路况29我们要右转,那个人有注意到我们吗?强交互场景下的探索强交互场景下的探索博弈论不依赖预测轨迹同时考虑双方,做最优决策风险对手并不一定理智可能存在多个纳什均衡概率分布预测如果我跟紧前车,旁边车肯定不会切入物体未来的行为是一个概率分布更是一个条件概率分布30小鸡博弈,Game theory Sections 17.5-17.6强交互场景下的探索强交互场景下的探索机器学习理论上有能力处理复杂场景缺失客观的真值需要保证安全性和可解释性端到端:难训练、难保证效果输出中间结果:轨迹生成依然是挑战强化学习是热点,也是开放性问题需要一个强大的仿真系统需要开得像人Reward function 并不好设计31Berkeley DeepDrive强化学习与假人在仿真系统里交互的效果总结总结决策规划是自动驾驶最核心的模块对最终的驾驶行为负责强交互、复杂场景的处理是核心模块间的协调百花齐放的技术探索数据驱动的完整评估系统是关键低成本高质量的数据收集高可信度的仿真系统客观的指标系统安全、舒适、高效32 Jack KerouacQ&A