DAIR-V2X

主页

车路协同3D检测

路端3D检测

车端3D检测

Benchmark

数据采集

数据标注

数据文件结构

评测指标

1. 数据采集

2. 数据标注

3. 数据文件结构

4. 评测指标

1. 数据采集

在每个路口安装至少一对相机和激光雷达，其中每对相机和激光雷达安装在相同方位，同时对该相机和激光雷达进行标定，并对图像去畸变。路侧传感器型号如下：
300线LiDAR：
- 采样帧率：10Hz
- 水平FOV：100° ，垂直FOV： 40°
- 最大探测范围：200～280m；探测距离精度：<=3cm
Camera：
- 传感器类型：1英寸全局曝光CMOS
- 采样帧率：25Hz
- 传感器分辨率：最大采样分辨率为4096x2160
- 图像格式：RGB格式，按1920x1080分辨率压缩保存为JPEG图像
标定和坐标系
完备的路端3D感知需要获取相机和LiDAR传感器数据的相互位置和内外参数等，以建立不同传感器数据间的空间同步。其中路端LiDAR点云及相关内外参，全部转至x-y平面与地面平行的虚拟LiDAR坐标系。
- 虚拟LiDAR坐标系
虚拟LiDAR坐标系是以LiDAR传感器的几何中心为原点，x 轴平行地面向前，y 轴平行地面向左，z 轴垂直于地面竖直向上，符合右手坐标系规则。由于路端LiDAR与地面存在俯仰角，为方便研究，通过路端LiDAR外参矩阵，统一将路端LiDAR坐标系转到虚拟LiDAR坐标系，同时将路端点云全部转到虚拟LiDAR坐标系。
- 相机坐标系
相机坐标系是以相机光心为原点，x 轴和y 轴与图像平面坐标系的x 轴和y 轴平行，z 轴与相机光轴平行向前、与图像平面垂直。通过相机到LiDAR的外参矩阵，可以将点从相机坐标系转到LiDAR坐标系。
- 图像坐标系
图像坐标是以相机主点（即相机光轴与图像平面的交点，一般位于图像平面中心）为原点，x 轴水平向右，y 轴水平向下的二维坐标系。相机内参可以实现从相机坐标到图像坐标的投影。

2. 数据标注

从车端数据中选择10084帧有效图像+点云多模态数据，利用2D&3D联合标注等技术标注图像和点云多模态数据中的道路障碍物目标的2D和3D框，同时标注了障碍物类别、障碍物3D信息、遮挡和截断等信息。其中Dair-V2X的3D标注是以LiDAR为坐标系，同时保存如下标注信息：
- 障碍物类别：一共15类，包括行人、机动车等，其中带Ignore表示目标像素值小于15*15或者遮挡部分大于4/5，OtherIgnore表示非人车目标像素值小于15*15或者遮挡部分大于4/5；

- 障碍物截断：从[0, 1, 2]中取值，分别表示不截断、横向截断、纵向截断
- 障碍物遮挡：从[0, 1, 2]中取值，分别表示不遮挡、0%～50%遮挡，50%～100%遮挡
- alpha：观察者视角，范围在[-pi, pi]
- 2D box：图像中2D bounding box框
- 3D box：3D bounding box，车端基于 LiDAR坐标系，路端基于虚拟LiDAR坐标系；包括 (height, width, length, x_loc, y_loc, z_loc) ，以米为单位；包括 (rotation_y) ，表示障碍物绕Y轴旋转角度

3. 数据文件结构

4. 评测指标

目标检测精度mAP：针对车辆、行人等目标，计算3D 边界框的尺寸、位置和置信度，基于 IoU 计算mean average precision (mAP) ，最终的精度是所有类别mAP的均值。