1. 车路协同3D检测任务
2. 数据采集
3. 数据标注
4. 数据文件结构
车路协同3D检测是在通信带宽约束下,车端融合路端信息,实现3D目标检测的视觉感知任务。与传统自动驾驶3D检测任务相比,本任务需要解决车端与路端多视角、数据多模态、时空异步、通信受限等挑战,通过设计车路融合感知算法,实现盲区补充、提升感知精度。
1.1 问题建模
输入:车端多模态数据、路端多模态数据,以及对应的时间戳和标定文件
优化目标:
- 提高检测性能:提升算法在测试集上的3D目标检测精度
- 减少路端数据使用量:保证相近精度的前提下,降低路端数据使用量,减少通信时延
- 减少传感器使用量:保证相近精度的前提下,降低车端和路端传感器使用数量,以节省成本、降低能耗
1.2 评测指标
目标检测精度:针对车辆、行人等目标,计算3D边界框的尺寸、位置和置信度,基于 IoU 计算mean average precision (mAP) ,最终的精度是所有类别mAP的均值。
路端数据使用量:以算法使用的路端信息比特数作为评测指标。
1.3 Baseline后融合参考方案
分别利用车端相机+LiDAR及路端相机+LiDAR传感器信息,计算3D目标位置、置信度等结果,在虚拟世界坐标系中将计算结果进行后融合。车路协同感知后融合整体流程如下图。
图:车路协同感知后融合参考方案流程
A. 场景设置
1. 路侧设备:基于北京市高级别自动驾驶示范区,选择若干交通场景复杂路口,路侧部署相机和激光雷达,完成GPS授时同步,并完成相应的内参外参标定。
2. 自动驾驶车辆:利用配置好相机和激光雷达的自动驾驶车辆,完成GPS授时同步,并完成相应的内参外参标定。
3. 设置路线并采集数据:当自动驾驶路线经过路侧设备附近区域时,分别保存该时段路侧传感器和自动驾驶传感器数据。
4. 截取数据:从保存的传感器数据截取20s以上片段作为车路协同数据。
B. 路端采集设备
在每个路口安装至少一对相机和激光雷达,其中每对相机和激光雷达安装在相同方位,同时对该相机和激光雷达进行标定,并对图像去畸变。路侧传感器型号如下:
300线LiDAR:
- 采样帧率:10Hz
- 水平FOV:100° ,垂直FOV: 40°
- 最大探测范围:280m;
- 探测距离精度:<=3cm
Camera:
- 传感器类型:1英寸全局曝光CMOS
- 采样帧率:25Hz
- 图像格式:RGB格式,按1920x1080分辨率压缩保存为JPEG图像
C. 车端采集设备
自动驾驶车配备1个顶端激光雷达1个前视摄像头,同时对该激光雷达和前视摄像头进行标定,并对图像去畸变。顶端激光雷达和前视摄像头型号如下:
Hesai Pandar40线LiDAR:
- 采样帧率:10Hz
- 水平FOV:360° ,垂直FOV: 40°,-25°~15°
- 最大探测范围:200m;反射率:10%;最小垂直分辨率:0.33°
Camera:
- 采样帧率:20HZ
- 水平FOV:128° ,垂直FOV:77°
- 图像格式:RGB格式,按1920x1080分辨率压缩保存为JPEG图像
D. 标定和坐标系
为了达到不同传感器之间的空间同步,车路协同需要使用传感器参数信息进行坐标系转换,各坐标系之间的关系如下图:
图:车路协同多传感器空间位置关系
- 虚拟世界坐标系
虚拟世界坐标系是以地面某一随机位置为原点,x 轴、y 轴与地面平行,z 轴垂直于地面竖直向上,符合右手坐标系规则。
- LiDAR坐标系
LiDAR坐标系是以LiDAR传感器的几何中心为原点,x 轴水平向前,y 轴水平向左,z 轴竖直向上,符合右手坐标系规则。
- 虚拟LiDAR坐标系
虚拟LiDAR坐标系是以LiDAR传感器的几何中心为原点,x 轴平行地面向前,y 轴平行地面向左,z 轴垂直于地面竖直向上,符合右手坐标系规则。由于路端LiDAR与地面存在俯仰角,为方便研究,通过路端LiDAR外参矩阵,统一将路端LiDAR坐标系转到虚拟LiDAR坐标系,同时将路端点云全部转到虚拟LiDAR坐标系。
- 相机坐标系
相机坐标系是以相机光心为原点,x 轴和y 轴与图像平面坐标系的x 轴和y 轴平行,z 轴与相机光轴平行向前、与图像平面垂直。通过相机到LiDAR的外参矩阵,可以将点从相机坐标系转到LiDAR坐标系。
- 图像坐标系
图像坐标是以相机主点(即相机光轴与图像平面的交点,一般位于图像平面中心)为原点,x 轴水平向右,y 轴水平向下的二维坐标系。相机内参可以实现从相机坐标到图像坐标的投影。
- 定位系统
利用GPS/IMU等定位和惯性系统,可实时获取自动驾驶车辆在全球定位系统的位置以及朝向角。为保护数据安全和研究方便,将真实世界定位系统得到的定位转换到虚拟世界坐标系下。
E. 时间同步
时间同步是为实现车路协同针对路端和车端传感器所做的同步操作。利用GPS授时以同步各传感器时间,并在采集每帧数据时得到相应的时间戳。时间戳可通过时间转换得到相应的标准时间。
数据抽样
当自动驾驶车辆经过路端设备所在路口时,车端路端传感器同步采集车路协同序列数据,从中抽取约100段时长20s的多模态序列数据,按照10HZ频率分别对车端和路端序列进行抽样得到离散帧。
3D标注
针对采样得到的路端和车端数据,利用2D&3D联合标注技术,标注图像和点云多模态数据中的道路障碍物目标的2D和3D框,同时标注障碍物类别、遮挡和截断等信息。其中DAIR-V2X的3D标注采用LiDAR坐标系。
- 障碍物类别:一共15类,包括行人、机动车等,其中带略(Ignore)表示目标像素值小于15*15或者遮挡部分大于4/5,OtherIgnore表示非人车目标像素值小于15*15或者遮挡部分大于4/5
表:3D标注属性15类类别表
- 障碍物截断:从[0, 1, 2]中取值,分别表示不截断、横向截断、纵向截断
- 障碍物遮挡:从[0, 1, 2]中取值,分别表示不遮挡、0%~50%遮挡,50%~100%遮挡
- alpha:观察者视角,范围在[-pi, pi]
- 2D box:图像中2D bounding box框
- 3D box:3D bounding box,车端基于 LiDAR坐标系,路端基于虚拟LiDAR坐标系;包括 (height, width, length, x_loc, y_loc, z_loc) ,以米为单位;包括 (rotation_y) ,表示障碍物绕Y轴旋转角度
车路协同3D标注
基于车端和路端标注数据,以车端点云为协同标注时间基准,得到如下车路协同标注结果:
1. 车端3D标注:以车端3D标注作为车路融合感知结果的基准;
2. 相同时间戳的车路目标结果融合:选择车端和路端数据时间差小于10ms作为数据对,并对该车端和路端标注结果投影到相同虚拟世界坐标系进行结果融合。