451—458基于激光雷达点云与图像融合的车辆目标检测方法
胡远志1,刘俊生2,何 佳3,肖 航2,宋 佳2
(1. 汽车噪声振动和安全技术国家重点实验室,重庆400054,中国;2. 重庆理工大学汽车零部件先进制造技
术教育部重点实验室,重庆400054,中国;3. 中国汽车技术研究中心汽车工程研究院,天津300300,中国)
摘要:提出了一种基于4线激光雷达(LADAR)与摄像头融合的方案,用于提高智能车辆对车辆目
标的检测精度。首先调用卷积神经网络来识别图像中的目标,然后将点云与图像数据进行空间匹配,最后采用R-Tree算法快速配准检测框与相应的点云数据。利用点云的深度信息就能获得目标的准确
位置。经过真实道路场景采集的图像与点云数据进行测试,结果表明:该融合算法将漏检概率(FN)从Mask R-CNN方法的14.86%降低到8.03%;因而,该融合算法能够有效的降低图像漏检的概率。
关键词:智能车辆;目标检测;激光雷达(LADAR);点云数据;图像检测;卷积神经网络;多传感器融合;
R-Tree算法
中图分类号: U 461 文献标识码: A DOI: 10.3969/j.issn.1674-8484.2019.04.006 Vehicle object detection method based on data fusion of
LADAR points and image
HU Yuanzhi1,LIU Junsheng2,HE Jia3,XIAO Hang2,SONG Jia2
(1. State Key Laboratory of Vehicle NVH and Safety Technology, Chongqing 400054, China; 2. Key Laboratory of Advanced
Manufacturing Technology for Automobile Parts, Chongqing University of Technology, Chongqing 400054, China;
3. China Automotive Technology & Research Center, Automotive Engineering Research Institute, Tianjin 300300, China)
Abstract:A fusion scheme with 4 lines LADAR (laser detection and ranging) sensor and camera was adopted
to provide more precise detection for traffic, for an intelligent vehicle. Firstly, by using deep learning technique
to detect image. Then, mapping LADAR data to image through a space transfer matrix. Finally, by using an
R-Tree algorithm to quickly match LADAR points and corresponding detection boxes. The traffic’s real location
was calculated easily by laser’s ranging. The proposed fusion frame was tested by images and point cloud data
collected from real motorway scenes. The results show that the false negative (FN) of the fusion frame method
is 8.03%, which is lower than that of 14.86% come from the Mask R-CNN method. Therefore, the fusion data
could decrease probability of the FN compare with single data.
Keywords:i ntelligent vehicles; object detection; laser detection and ranging (LADAR); point cloud data; image detection; convolutional neural network; multi-sensors fusion; R-Tree algorithm
收稿日期 / Received :2019-04-17。
基金项目 / Supported by :国家重点研发计划(2017YFB0102500);汽车噪声振动和安全技术国家重点实验室开放基金资助(NVHSKL-201908);中国汽车技术研究中心有限公司重点课题(16190125)。
第一作者 / First author :胡远志(1977—),男(汉),湖南,教授。E-mail: yuanzhihu@cqut.edu.cn。
中国智能网联汽车发展已经上升至国家战略层面[1],其重要性不言而喻。环境感知作为智能车技术至关重要的分支,是如今各研究机构、高校、企业的研究热门。该技术面临的诸多现实问题十分复杂,如在选用传感器时,需要综合考虑各个传感器的优劣势以及成本等,且传感器(硬件)、感知算法(软件)的测试技术仍在初期发展阶段。因此目前并没有一套标准技术方案,各种传感器硬件的选配方案处于探索尝试期[2]。
近几年,深度学习技术在目标检测方面取得了卓越成效,使得用图像传感器来检测环境深受青睐[3]。但因光照条件恶劣等因素导致的相机成像质量不高,神经网络模型也束手无策。同样的,其他用于获取环境信息的传感器,也会有自身的局限性和特点,而结合各种传感器的特点,能提供更为准确、冗余的环境信息,这保障了智能车的安全行驶[4]。目前大多数研究集中于图像数据与多线激光雷达(laser detection and ranging, LADAR),比如文献[5]采用线激光雷达点云数据与图像数据融合的方式,利用点云的深度信息与插值算法获得深度图像(RGB-D),最终利用特征级融合提高了检测精度;文献[6]也基于深度图像数据提出一种三维物体检测框架——Frustum PointNets。该方法直接在原始点云数据上操作,分别利用成熟的二维目标检测和三维目标检测的深度学习网络实现定位,实现了较好的检测性能;文献[7]提出融合网络——多模态数据融合的多视图三维物体检测网络(multi-view 3D,MV3D)。其利用卷积层分别从鸟瞰图(aerial view,AV)和前视图(front view,FV)提取点云特征,并在鸟瞰图分支利用鸟瞰视角的点云产生高度精确的3D候选框,然后将特征投射回AV和FV以及图像的特征层,最后融合3个分支的特征。通过这种多视图的编码方案,能够获得对稀疏3D点云更有效和紧凑的表达。激光雷达的线束越多,提供的信息越多,越有利于准确识别目标,但往往计算资源的要求、方案的成本也越高,不利于商业化。
鉴于此,本文提出采用4线激光雷达与摄像头的融合算法,既利用了激光点云测距精度高的优点来获取车辆的真实位置数据,又利用融合数据有效地提高检测性能,同时达到方案成本较低、易于商业化的目的,是迫切且有研究意义的。
1 算法
在智能驾驶技术发展初期,传感器的组合与相应的算法呈多样化趋势。为了实现提高检测精度与稳定性,同时成本较低的目标,将研究对象选定为4线激光点云与图像数据的融合算法。4线激光雷达数据量少,难以利用特征提取或其他算法准确而稳定地检测物体;相较之下,图像数据丰富,并且在成像条件良好的情况下,检测识别性能较好。因此采用图像识别目标,点云辅助增强检测精度的数据融合思路。具体融合框架如图1所示。该框架利用两种传感器的数据,以提高检测精度。
算法框架的输入为激光点云与图像的原始数据。部分一为数据前处理,图像利用卷积神经网络来检测并识别图像中的目标,输出目标的检测框;而点云数据需要预先同图像数据进行时间上与空间上的对齐,使点云能恰当地投射到图像上。部分二为数据融合,使用R-Tree算法,快速地将检测框与框内的点云关联起来,此时利用点云的深度信息可获知目标的真实位置。部分三,利用融合后的数据降低图像算法检测目标时的漏
检概率。
图1 激光点云与图像数据融合的目标检测流程图
453
胡远志:基于激光雷达点云与图像融合的车辆目标检测方法2 数据前处理
2.1 数据采集
数据质量关系到融合算法的开发,是影响整个研究项目能否顺利进行的重要前提。目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集——KITTI 标准数据库[8],因其不包含4线激光雷达的数据,为了适应所提出的融合方案的算法开发,项目的数据来自自主搭载的数据采集车。数据采集车配备有IBEO LUX-4线激光雷达和PointGrey Grasshopper 系列的工业级相机,分别安装于车头和挡风玻璃内。为了充分验证算法的适用性,进行数据采集时考虑了不同的道路场景,如高速路,城区道路,乡村土路;以及不同的光照条件,如早晨、傍晚、夜间场景等。
2.2 数据匹配
1) 时间匹配。由于不同传感器采样频率不同,因此采集后的数据需要进行时间匹配。通常做法是将各传感器数据统一到扫描周期较长的一个传感器数据上[9]。4线激光雷达 的采样频率大约为12.5 Hz ,相机的采样频率为30 Hz 。因此当激光雷达完成一次采样时,寻找与该时刻最近邻时刻的图像,完成两种数据的时间匹配。
2) 空间匹配。传感器安装于汽车车身的不同位置,每个传感器定义了自己的坐标系,为了获得被测对象的一致性描述,需将不同的坐标系转换到统一的坐标系上[10]。点云数据和图像数据的空间融合模型涉及的坐标系包括世界坐标系、激光雷达坐标系、相机坐标系、图像坐标系和像素坐标系。根据相机成像原理,利用Matlab 标定工具箱,可求得世界坐标系、相机坐标系、
图像坐标系和像素坐标系间的转换矩阵。如图2展示了数据采集车的相机坐标系与激光雷达坐标系。图2中: uov 表示像素坐标系, xo 'y 表示图像坐标
系,其中点o '的坐标在像素坐标系中表示为(u o , v o ),因此其关系式如下:
式中: d x 和 d y 表示每个像素在x 轴和y 轴的物理尺寸。
X c Y c Z c 示相机坐标系, O c 为相机光心, Z c 为相机光轴,和图像平面垂直, O c -o '为相机焦距f 。易知相机坐标系和图像坐标系的关系式如下:
X W Y W Z W 表示世界坐标系,本文只关心两种传感器的空间位置关系,可将激光雷达坐标系视为世界坐标系。世界坐标系是为了描述相机的位置而被引入的,任何维的旋转可以表示为坐标向量与合适的矩阵的乘积。在世界坐标系下,有两个重要的参数:旋转矩阵R 和平移向量T ,其中旋转矩阵和平移向量的作用分别为将两坐标轴的指向统一到一个方向上和将坐标原点统一到同一点。因此世界坐标系和相机坐标系的变换关系如下:
(3)
综述所述,像素坐标系和世界坐标系间的变换关
系整理如下:
(4)
其中: f u 、 f v 分别为相机横、纵焦距, c u 、 c v 为光学中心。这4个参数通过Matlab 相机标定工具箱,可方便地求解出[11-13]。
2.3 卷积神经网络
随着计算资源的增加和大数据的出现[14],基于深度学习的目标检测开始崭露头角,卷积神经网络的图
X c
O c
Y c
Z c
[R |T ]
X w
Y w
Z w P(X c , Y c , Z c )
x
y
o p
o
u
v
注: R|T 表示空间匹配的旋转平移矩阵;
红色坐标系表示相机;绿色表示激光雷达。
图2 数据采集车示意图
汽车安全与节能学报454第10卷 第4期 2019年
像分类因Krizhevsky 重新引起重视[15]。此后大量关于图像分类、目标检测的网络模型都是基于该基础模型的扩充、完善,不断演化而来的。比如基础模型有VGG [16]
、 GoogLeNet [17]
、 ResNet [18]
等,兼具精度与
实时性的目标检测模型有SSD [19]
系列模型,YOLO
[20]
系列模型等。
深度学习技术在目标检测的精度方面有重要的优势。因此针对图像数据的前处理,本文采用 研究团队开源的Detectron 软件库,调用Mask R-CNN [21]模型来进行目标检测,其以101层的残差网络和特征金字塔网络(ResNet-101-FPN )作为基础框架进行图像特征提取,网络结构如图3所示。
3 数据融合
由图1可知:利用点云信息的前提是将检测框与框内的点云进一步关联起来。常规的做法是循环遍历每个雷达数据点,逐一判断其是否在每个检测框内。这种做法的缺陷在于效率低下。假设每张图像中有M 个检测框和N 个点云数据,那么循环遍历的时间复杂度为O t (MN ) [23],并且对于不同交通场景下的物体的数量差别较大,这意味测距效率不稳定,进而会影响整个检测系统的效率。理论上,图像上的检测框与点云数据的相对空间结构关系是固定的,因此可以通过一次遍历所有检测框与数据点来锁定相应的位置关系,其时间复杂度为O t (M +N )。为了解决检测框与数据点匹配的效率问题,引入R-Tree 算法[24]。
3.1 R-Tree 算法
R-Tree 是一种按照对象的空间位置关系来组织数据的动态平衡树,具有很强的灵活性和可调节性。如图4a 所示,从叶子结点开始,每一个结点的父亲结点在空间上完全包含其所有的子结点。逐层上溯,形成一个完整的、描述了不同层次的结点之间的空间包含关系的数据结构。
应用R-Tree 算法建立一种数据结构来描述物体检测框与点云间的位置关系。针对检测框与数据点关联
的具体问题,设计了2层R-Tree 数据结构,如图4b 所示。其中,R-Tree 的第1层保存物体检测框,第2层保存雷达数据点。此外,R-Tree 数据结构要求每个结点的数据单元保存相同类型的数据。然而,物体检测框与雷达数据点的数据类型并不相同。前者是一个矩形框,包含有4个点坐标;而雷达数据点则只有1个点坐标。因此需要为物体检测框和点云数据设定统一的数据类型。本文将点云数据设定为4个坐标点重合的矩形,解决了数据类型统一的问题。
R1
R2
R3 R4 R5
R6 R7 ……
R1
R2
R3 R4 R5 R6
R7 ······· 图3 Mask R-CNN 网络结构
(a) R-Tree 算法的基础结构 (b) 改进的R-Tree 结构
图4 R-Tree 结构示意图
Mask R-CNN 网络模型基于Faster R-CNN 模型扩展了一个与现有目标检测和回归并行的分支——预测目标掩码分支。其中类别标签和检测框回归分支沿用的Faster R-CNN ,而掩码分支等效FCN 网络[22]作用于每个候选框(RoI ),并预测RoI 的像素级的分割掩码。本文重点不在研究网络结构的细节,根据其GitHub 的开源项目,配置合适的计算机环境,便可调用该网络。
R1—R7为“框”的符号。
R1 R2 R3
R4
R5
R6
R7
R1 R2 R3 R4 R5 R6 R7 ……
R6 R7 ·······
455
胡远志:基于激光雷达点云与图像融合的车辆目标检测方法3.2 算法有效性验证
对循环遍历与R-Tree 空间索引算法的性能进行测试比较。测试数据为90张图像,图像的目标变化不定,点云的数量也不定。测试结果(耗时t 、点云数量N cl 、检测框数量N R )如图5所示。
如图5上方图框中的深蓝色折线,其表示循环遍历的匹配用时,绿色横线表示平均用时,采用循环遍历的方法在这批数据中的每帧平均耗时为11.29 ms ;而红色折线为R-Tree 算法的匹配用时,其平均耗时为不到1 ms 。并且,从折线的曲折程度可看出,循环遍历性能不稳定,会随着检测框及点云的数量变化,性能出现较大波动;相比之下,R-Tree 算法性能较为稳定。因此所设计的基于R-Tree 的空间对应关系搜索算法具有
较好的效率与鲁棒性。
4 置信概率修正
尽管基于深度学习技术的图像检测具有很好的性能,但是在夜间等特殊场景下,由于光照条件恶劣等因素导致的相机成像质量不高,会最终影响识别效果。并且无法通过优化深度神经网络结构来解决该问题。针对该问题,利用点云数据可辅助改善图像检测效果。
通过试验发现,一方面即使在成像条件恶劣的情况下,深度神经网络仍可识别出目标,只是此时识别置信度偏低。另一方面,对于距离本车较远的目标或被遮挡的目标,其像素很少或不完整,往往识别置信度不高。上述两方面的情况都可能导致目标被视为虚检,从而被滤掉, 如图6所列举的实例所示。图6中, “p (汽车)” 表示识别为汽车的概率。
激光雷达不受光照影响,且能检测到较远的目标。因此当目标被识别时,可判断此时检测框内有无点云,来决定是否修正相应的识别置信度。算法流程如图7所示。
修正置信概率需要设计一个函数,从而有效、合理地提高包含激光点云的物体检测框的置信概率。函数的选择与设计需要满足几个条件:
1) 置信概率修正后,原来有较大置信概率的检测框依然较大;2) 在一定概率上要保证,不将置信概率过低的物体修正为有很高置信概率的目标,造成误检;3) 变换后的置信概率依然保持(0,1)取值范围。
最终本文选用了sigmoid 函数来提高包含点云数据的检测框的置信度。公式如下:
(5)
通过调试,发现参数C = 1时,能满足上述条件,
适当提高置信度并最终有效地提高了检测精度。
5 融合算法测试验证
为了测试融合方法的有效性,需从数据集中挑选典型的场景进行验证。本文将测试场景分为白天场景、夜间场景。其中白天场景细分为光线正常、光线较暗与“眩光”3种情况;而夜间场景受路灯、车灯影响,绝大部分图像出现“眩光”的情况,因此本文对夜间场景
不再细分。表1列举了各场景的统计量。
经统计,这批测试集共2 241 张图片,因实际采集的客观因素所致,数据集不包含雨、雾等特殊天气场景。用同一批数据测试Mask R-CNN 网络和融合方法,通过比较两者的检测效果来验证融合方法的有效性。逐
-10
0102030
t / m s
帧数
200
4006008000
50
100
N c l
帧数
10
20
50
100
N R
帧数
(a) 两种算法的耗时
(b) 点云统计量
(c) 检测框统计量
图5 两种算法性能对比图
汽车安全与节能学报456第10卷 第4期 2019年
数据前处理
数据融合
图7 置信概率修正流程一统计各场景的漏检情况并算出相应的概率,测试结果如图8所示。
表1 场景统计量
10
20
30
40
正常光线
光线较暗
“眩光”
夜间场景
漏检率/ %
场景
图8 网络模型与融合算法测试对比图
结果表明在各个场景中,融合方法均有效的减小了漏检率,总体上,漏检率从14.86%降到了8.03%,证实了所提算法能显著降低漏检概率。部分检测实例如图9所示,其中红色框表示失败的例子其中第一排
为网络模型的检测结果,存在明显的漏检情况;
第二排
为融合方法的检测结果和置信度p
。 图中, “p (汽车) = 0.837”表示“识别为汽车的概率为0.837”。 显然,在目标距离远、遮挡、夜间成像质量不高等各种情况下,融入点云数据后能有效提高检测框的置信度,减少了漏检
(a) 清晰目标 (b) 模糊目标
(c) 远距离目标 (d) 受遮挡目标
图6 不同成像条件下的识别置信度对比图
457
胡远志:基于激光雷达点云与图像融合的车辆目标检测方法的概率。
如图9c 所示,仍会存在个别失败案例。原因可能来自两个方面。一方面,图像不清晰,可能到达了网络模型的推理能力边界;另一方面,该网络模型不针对智能驾驶应用场景,其中车型数据[25]并不完善,导致网络模型无法很好的适应中国的道路场景或者某些特色车型。
6 结 论
基于多传感器的信息融合技术逐渐成为智能车环境感知技术的主流路线。通过融合多种传感器的数据,能够有效降低或避免单一传感器获取信息时的不稳定性,从而提供更可靠的决策依据。实验证明,雷达点云数据与图像数据的融合不仅能获得准确的目标的深度信息,还能降低图像检测时的漏检的概率,达到了融合数据以提高检测效果的目的。但融合方法还有待优化,尤其是所采用的卷积网络模型适用于通用场景,
而不针对智能驾驶场景。因此,可将模型优化为更适用于驾驶场景,从而进一步提高检测效果。
参考文献 (References)
[1] 编辑部. 中国汽车工程学术研究综述·2017 [J]. 中国公路
学报, 2017, 30(6): 1-197. Editor Office. Review of the academic research on
automotive engineering in China, 2017 [J]. Chin J
Highway and Transport , 2017, 30(06): 1-197. (in Chinese)[2] 刘少山, 唐洁, 吴双, 等. 第一本无人驾驶技术书[M].北
京: 电子工业出版社, 2017: 7-119. LIU Shaoshan, TANG Jie, WU Shuang, et al. The First
Driverless Technical Book [M]. Beijing: Publishing House of Electronics Industry, 2017: 7-119. (in Chinese)
[3] 张新钰, 高洪波, 赵建辉, 等. 基于深度学习的自动驾驶
技术综述[J]. 清华大学学报: 自然科学版, 2018, 58(4): 438-444. ZHANG Xinyu, GAO Hongbo, ZHAO Jianhui, et al. An
overview of autopilot technology based on deep learning [J]. J Tsinghua Univ: Sci and Tech , 2018, 58(4): 438-444.
(in Chinese)
(a) 网络模型Mask R-CNN
(b) 融合方法
(c) 融合方法
图9 融合方法检测实例
p (汽车)=0.837
458第10卷第4期 2019年
[4] 王战古, 邵金菊, 高松, 等. 基于多传感器融合的前方
车辆识别方法研究[J]. 西大学学报: 自然科学版, 2017, 42(2): 19-428.
WANG Zhangu, SHAO Jinju, GAO Song, et al. Research on forward vehicle recognition method based on multi-
sensor fusion [J]. J Guangxi Univ: Nat Sci Ed, 2017,
42(2): 419-428. (in Chinese)
[5] 王东敏,彭永胜,李永乐.视觉与激光点云融合的深度图
像获取方法[J].军事交通学院学报, 2017, 19(10): 80-84.
WANG Dongmin, PENG Yongsheng,LI Yongle. Depth
image acquisition method based on fusion of vision and
laser point cloud [J]. J Milit Transp Univ, 2017, 19(10):
80-84. (in Chinese)
[6] Charles R. Qi, Liu Wei, Wu Chenxia, et al. Frustum
PointNets for 3D object detection from RGB-D data [C/
OL]// Computer Vision Pattern Recog.(2017-11-22).
https://arxiv.org/abs/1711.08488.
[7] CHEN Xiaozhi, MA Huimin, WAN Ji, et al. Multi-view
3D object detection network for autonomous driving [C/
OL]// Computer Vision Pattern Recog, (2017-06-22).
https://arxiv.org/abs/1611.07759v1.
[8] Geiger A. Are we ready for autonomous driving? The
KITTI vision benchmark suite [C]// Computer Vision and Pattern Recognition. IEEE, 2012: 3354-3361.
[9] 韩崇昭, 朱洪艳, 段战胜. 多源信息融合[M]. 北京: 清
华大学出版社, 2010: 358-359.
HAN Congzhen, ZHU Hongyan, DUAN Zhansheng.
Multi-Source Information Fusion [M]. BeiJing: Tsinghua University Press, 2010: 358-359. (in Chinese)
[10] 向滨宏. 基于汽车雷达和摄像头信息融合的目标检测方
法研究[D]. 重庆: 重庆大学,2017.
XIANG Binhong. Research on target detection method
based on vehicle radar and camera information fusion [D].
Chongqing: Chongqing University, 2017. (in Chinese) [11] Faugeras O D, Luong Q T, Stephen J. Maybank. Camera
self-calibration: theory and experiments [C]// Euro Conf
Computer Vision, 1992: 321-334.
[12] ZHANG Zhengyou. A flexible new technique for camera
calibration [J]. IEEE Trans Pattern Anal Machine Intell, 2000, 22(11): 1330-1334.
[13] Stein G P. Accurate internal camera calibration using
rotation, with analysis of sources of error [C]// IEEE Int’l
Conf Computer Vision, 1995: 230- 236.
[14] JIA Deng, HAO Su, Jonathan Krause, et al. ImageNet
large scale visual recognition challenge [C/OL]// Computer Vision Pattern Recog, (2015-01-30). https://arxiv.org/
abs/1409.0575.
[15] Krizhevsky A, Sutskever I, Hinton G E. Imagenet
classification with deep convolutional neural networks [C]// Int’l Conf Neural Info Proce Syst, 2012: 1097-1105. [16] Simonyan K, Zisserman A. Very deep convolutional
networks for large-scale image recognition, [C]// Proc Int’l Conf Learning Representations, 2015: 208-215.
[17] Szegedy C, LIU Wei, JIA Yangqing, et al. Going deeper
with convolutions [C]// Computer Vision Pattern Recog,
2014: 1-9.
[18 ] HE Kaiming, ZHANG Xiaoyu, REN Shaoqing, et al.
Deep residual learning for image recognition [C]//. Proc
IEEE Conf Computer Vision Pattern Recog, 2016: 770-778.
[19] LIU Wei, Anguelov D, Erhan D, et al. SSD: Single shot
multibox detector [C]//. Euro Conf Computer Vision, 2016: 21-37.
[20] Redmon J, Divvala S, Girshick R, et al. You only look
once: unified, real-time object detectrion [C]//. IEEE Conf Computer Vision Pattern Recog, 2015: 779-788.
[21] HE Kaiming, Gkioxari G, Dollar P, et al. Mask R-CNN
[C]//. IEEE International Conference on Computer Vision,
2017: 2980-2988.
[22] Shelhamer E, Long J, Darrell T. Fully convolutional
networks for semantic segmentation [J]. IEEE Transa
Pattern Anal Machine Intelli, 2014, 39(4): 0-651. [23] 罗德·斯蒂芬斯. 算法基础[M]. 北京: 机械工业出版社,
2017: .
STEPHENS Rod. Algorithmic Basis [M]. Beijing:
Machine Industry Press, 2017: . (in Chinese)
[24] Guttman A. R-trees: A dynamic index structure for spatial
searching [C]// Int’l Conf Manag Data, 1984: 47-57. [25] LIN Tsung-Yi, Patterson G, Ronchi M R, et al.
COCODataset [EB/OL]. (2017-09-01). http://cocodataset.
org