端到端单级多视图融合3D检测方法MVAF-Net

该方法将激光雷达投影的BEV和向前的视角以及相机的视角图像作为检测输入。

在特征融合中,提出了Attentive Pointwise Fusion(APF)模块。

设计要学习的Attentivepointwiseweighting(APW)模块,并添加其他两个任务前景分类和中心回归。

该图是体系结构图:整个MVAF-Net包括三个部分:1)单视图特征提取(SVFE),2)多视图特征融合(MVFF)和3)融合特征检测(FFD)。

在SVFE部分中,原始的RGB图像和点云由3-streamCNN主干(CV,BEV和RV)处理以生成多视图特征图,并且在BEV和RV中完成了点云体素化。

在MVFF部分中,逐点自适应地融合了多视图特征和按注意点融合模块。

细心点加权模块对融合的点特征进行进一步处理,以对点特征进行加权并学习结构信息。

在FFD部分中,再次对融合和重加权的点特征进行体素化,并将融合主干输入到最终的3D检测中。

RV投影表示为圆柱坐标系:Attentivepointwisefusion模块结构如下:Attentivepointwiseweighting模块结构如下:MVAF-Net骨干网详细信息如下:检测头包括:分类(focalloss),帧回归(SmoothL1loss)和方向分类(softMaxloss)。

最后两个的总损失函数是前景分类项(focalloss)和中心回归项(SmoothL1loss)。

结果如下:结论我们提出了一种端到端的单阶段多视图融合3D检测方法MVAF-Net,它由三部分组成:单视图特征提取(SVFE),多视图特征融合( MVFF)和融合特征检测(FFD)。

在SVFE部分,三流CNN主干(CV,BEV和RV主干)使用LiDAR点云和RGB图像生成多视图特征图。

在MVFF部分中,我们使用我们提出的关注点融合(APF)模块来实现多视图特征的自适应融合。

该模块可以使用注意力机制来自适应地确定从多视图输入中引入了多少信息。

此外,我们通过提出的注意点加权(APW)模块进一步提高了网络的性能,该模块可以加权点特征并通过两个附加任务来学习结构信息:前景分类和中心回归。

大量实验验证了所提出的APF和APW模块的有效性。

此外,所提出的MVAF-Net在所有单阶段融合方法中均能产生竞争性结果并达到最佳性能。

此外,我们的MVAF-Net优于大多数两阶段融合方法,在KITTI基准上实现了速度和准确性之间的最佳平衡。