Simplestory's Blog

Simplestory's Blog

Help God change the world

VoxelNet and SECOND
点云有着分布上稀疏、结构上不规则、几何上无序的特性,所以直接在点云上使用卷积操作可能会导致生成的特征极度地偏离它原本的表达。 VoxelNet 该模型是对点云进行体素化,然后利用3D卷积来获取特征。具体是: 将点云空间均分为大小为\(v_D\)、\(v_H\)、\(v_W\)的体素网格,并且同一网格内随机保留最多\(T\)个点(多的剔除,少的不管)。 对体素单元使用VFE层(voxel feature encoding layer)来提取体素特征并合并为一个4D的张量。 在上面得到的张量上使用3D卷积进一步提取特征,之后用RPN结构来获得结果 如下图: VFE VFE是VoxelN...
Stereo RCNN
该网络通过双目视觉来实现3D目标检测,属于3D detection中image based的result-lifting方法,这类方法就是将3D检测分解为2D object detection和depth estimation这两部分。 Stereo RCNN是在Faster RCNN的基础上进行扩展的,具体如下图: Backbone 作者选用的是ResNet-101结合FPN的形式,并且共享权重。通过该backbone同时对左右图像进行处理,之后将结果合并作为Stereo RPN的输入。 Stereo RPN 为了能让左右框生成的anchor对应起来,作者对objectness ...
OTA
决定将哪个gt分配给哪个anchor的问题是目标检测中的一个重要问题,即标签分配问题。OTA提供了一个新的思考该问题的角度:把标签分配问题视为最优传输问题。 Label Assignment 以往的标签分配策略主要分为:fixed和dynamic两种。 对于fixed label assignment,通常Anchor-based的检测模型采用IoU阈值作为分配依据(如Fast-RCNN、Faster-RCNN、YoLo3、RetinaNet等),而Anchor-free检测模型有一部分将目标中心位置一定范围内的锚点指定为正样本(如FCOS、Foveabox等)。固定的分配方式通常都...
PointNet系列
PointNet、PointNet++和Frustum PointNet。常用的3D点云目标检测。 PointNet PointNet将深度学习直接应用于点云数据。点云数据是欧式空间下的点的一个子集,有无序性、点与点的空间关系以及不变性这三个性质。 无序性。点云数据是一个集合,对数据顺序并不敏感,这要求模型对数据的不同排列保持不变性。有几种思路。首先是将点云按某种规则进行排序,但对于高维空间,很难找到一个稳定的排序规则。另外一种将其作为一种序列使用RNN进行训练,这种方式很难处理好长度极大(成千上万)的输入元素(如点云)。最后作者利用对称函数去聚集每个点的信息:\(f(\lbrac...
Multi-View 3D Object Detection Network
利用三种视图进行3D点云检测(鸟瞰图、前视图、原RGB图)。 Bird's view 将点云数据等分为\(M\)份,在每一份上以\(0.1m\)的粒度划分网格,并提取每一格内的最高点云高度,作为鸟瞰图的高度图。强度图则采用网格内高度最高的点对应的反射率值,密度图则统计每个网格内的点云数\(N\),对特征进行归一化,最后结果为\(\min (1,\frac{\log (N+1)}{\log 64})\),其中64应该为激光线程数。最后得到通道数为\(M+2\)的特征。 Front's view 考虑到激光点云十分稀疏,将点云投影到圆柱面上形成前视图。给定一个3D点\(p=(x,y,z)...
SORT && DeepSORT
当前工业界常用的多目标跟踪框架。 SORT 该算法基于目标检测网络(Faster Rcnn),并利用卡尔曼滤波和匈牙利算法(或KM算法),极大地提高了多目标跟踪的速度。大致流程如下: 目标检测算法获得当前帧的目标框Detections,卡尔曼滤波获得当前帧的轨迹Tracks,对Detections和Tracks进行IOU匹配,最终结果分为三类: Unmatched Tracks:即Tracks部分失配,如果失配持续了\(T_{lost}\)次,则将该目标删除。 Unmatched Detections:即Detections部分失配,需要为该Detection分配一个新的Trac...
Dynamic Head
目标检测中因为定位和分类分支合并的复杂性而产生了许多算法,这些方法从不同角度出发提升了算法性能,但难以进行统一度量。论文采用多个注意力机制将不同的目标检测头进行统一,主要有特征层次的注意力、空间位置的注意力、通道间的注意力,分别对应于尺度感知、空间感知和任务感知。该方法可以在不增加计算量的情况下明显地提升模型性能。 给定一个从特征金字塔(即backbone)中\(L\)个不同层抽取的特征图组成的集合\(F_{in} = \lbrace F_i\rbrace^L_{i=1}\),将集合中的特征图通过上采样或下采样到中间大小,得到一个特征张量\(F\in R^{L\times H\tim...
动态卷积与动态ReLU
让它动起来。 Dynamic Convolution 一般的静态卷积用同一个卷积核对所有输入图像做相同的操作,而动态卷积会对不同的图像做调整,用更适合的卷积参数进行处理,这样可以在不增加网络深度或宽度的情况下增加模型的表达能力。 动态卷积根据注意力动态地聚合多个并行卷积核。注意力会根据输入动态地调整每个卷积核的权重,从而生成自适应的动态卷积。由于注意力是输入的函数,动态卷积不再是一个线性函数。通过注意力以非线性的方式叠加卷积核具有更强的表示能力。大致结构如下: 如上所示,动态卷积相比普通静态卷积引入了两部分额外的计算:注意力模块和卷积核的叠加。但这两部分的计算量很少,并且叠加多个卷...
CRF及其在分割领域上的应用
数学是科学之王。 ——高斯 概率无向图模型 在了解概率无向图模型之前,先看看概率图模型(PGM,probabilistic graphical model)的定义:它是由图表示的概率分布。设有联合概率分布\(P(Y)\),\(Y\in \mathcal{Y}\)是一组随机变量,由无向图\(G=(V, E)\)表示概率分布\(P(Y)\),即在图\(G\)中,结点\(v\in V\)表示一个随机变量\(Y_v\),\(Y_v=(Y_v)_{v\in V}\);边\(e\in E\)表示随机变量之间的概率依赖关系。 给定一个概率联合分布\(P(Y)\)和表示它的无向图\(G\)。以下说明...
图像分割基础网络
图像分割是对图像进行像素级的分类,主要有语义分割(Semantic Segmentation)和实例分割(Instance Segmentation)。语义分割只要求做到像素层面的分割,而实例分割要求在语义分割的基础上实现对不同个体的分割。这篇文章主要简单介绍几种基础的语义分割网络。 FCN FCN(Full Convolution Network)全卷积网络,是一个经典的图像分割网络,主要组成结构为Encoder-Decoder,其中Encoder负责提取图像特征信息,Decoder负责解析获取的特征信息。FCN将网络中的全连接层更换为卷积层,这样可以得到2D的特征图,在通过转置卷...
avatar
simplestory
I am fine