2021年特斯拉发布基于BEV+Transformer的感知算法架构 原图定位 1.BEV+Transformer 大模型使搭建高精度 3D 感知模型成为可能。2021年特斯拉发布基于 BEV+Transformer 的感知算法架构。BEV 即鸟瞰图,BEV 感知策略的实现方式是通过多个摄像头(或辅以激光雷达、毫米波雷达等)获得全方位视角图像,再通过共享 2D 特征提取器对不同摄像头获取的画面进行重建、拼接,最终形成 3D 全局视角。与传统 IPM 技术下的后融合策略不同,BEV 感知策略借用统一的 BEV 空间实现了特征级融合,数据失真率低,感知准确率更强。Transformer 是一种基于自注意力的深度学习模型,该模型并不像 CNN+RNN 通过串行顺序处理数据,而是通过自注意力集中机制捕捉序列中不同元素的相关性,更适应BEV 感知下的数据融合与处理。