FSD自动驾驶算法发展历程 原图定位 软件端,BEV+Transformer 带来域控算力提升和结构变化 特斯拉坚定拥抱重视觉感知方案。2018 年,特斯拉视觉感知路线通过 2D 图像+ CNN 卷积神经网络路线实现智能驾驶功能,对于图像的标注主要依靠人工标注,于 2019 年采用一部分自动标注来提升标注效率。该阶段聚焦在 2D 图像处理,将图像处理完后拼接成 single trip,实现时间的多帧融合。该方式对图像的处理属于规则算法,通过 IPM 将 2D 图像坐标进行计算,转换到 3D 空间中。但 2D图像处理在处理三维世界中的感知问题仍会有较大问题,如路面不平、车辆颠簸等问题都会影响到转换的准确度。2020 年特斯拉转向 BEV 方案,并将 CNN 神经网络转向 Transformer。先在 BEV 空间层中初始化特征,再通过多层 Transformer 和 2D 图像特征进行交互融合,得到 BEV 特征,避免了视觉融合时导致的误差问题。BEV 方案 2020 年重点关注路网的感知,2021 年拓展到整个空间,进行数据重建。