Simplestory's Blog

Simplestory's Blog

Help God change the world

YOLO_v1
目标检测模型有单阶和二阶的区分,二阶中以Faster Rcnn为代表,对于单阶模型,除了SSD之外,我们还有YoLo这一个主流模型。 简介 Yolo将目标检测问题转为边界框和类概率的回归问题,它通过一个卷积网络来同时处理多个边界框的预测以及这些框的类概率,所以这个模型的运行速度十分的快,但在精度方面的话会有点损失,毕竟没了像Faster RCnn那样的候选框生成过程。其次,Yolo模型有着更低的背景误识率和很好的泛化特性,作者甚至在抽象画作里进行了目标检测,效果海星:) 设计 首先模型先将输入图片划分为\(S \times S\)个网格,如果有目标对象的中心落在某个网格内,则该网格负...
SSD
首先必须祝贺中华人民共和国成立70周年,为了庆祝国庆假期的到来,我抽空过了一遍SSD目标检测模型,然后趁热打铁更了博客。。。SSD算法跟以往的RCNN系列算法最大的区别就是它是单级式的,而RCNN系列是多级式的。具体的细节见下文。 基本框架 先前的RCNN系列算法基本上都遵循生成候选框、提取特征、分类和回归这一模式,而SSD以及类似算法采用的是在特征图上进行密集采样得到先验框再进行分类和回归。简单来讲,多级式和单极式的区分就是看有没有生成候选框这一过程。多级式含有这一过程,所以相关的算法检测速度较缓慢,但精度高;单级式算法没有这一过程,相关算法检测速度快但精度低。 \(SSD\)算法...
Faster RCNN
这种连更的感觉很是刺激,很是酸爽。不多说废话,如标题所述这是一个更快更强的目标检测算法,同时也出自Ross Girshick之手。。。讲道理,这位大佬连着几篇论文都在喷他自己之前写的模型,有点东西啊。Faster Rcnn采用了一种高效的算法来生成候选框,也引入了Anchor这个概念。 基本结构 在\(Fast \ RCNN\)中,并没有对候选框的提出方法进行过任何讨论,只是提及到了使用\(selective \ search\)进行候选框的选择,后期这也成为了拖慢模型运行速度的主要原因。作者在\(Faster \ RCNN\)这个模型中进行了改进,提出了一种新的候选框提取方法,即\...
Fast RCNN
哈,难得这几天比较空闲,就抓紧总结一下之前看过的RCNN系列的论文,这篇是这一系列的第二篇。作者Ross Girshick看不惯自己曾经提出的模型(RCNN)运行起来如此之慢,所以提出了一个改进模型(Fast RCNN),接下来对该模型进行一个简单的分析。 RCNN的缓慢 与图像识别任务相比,目标检测由于需要多一个定位对象位置这一步所以难度提升了不少,其中主要解决的问题有两个,一个是模型需要大量的对象候选框;另外一个是这些候选框只是粗略地提供了对象的大概位置,需要模型去做一个回归的操作。\(RCNN\)是一个多阶段训练模型。\(RCNN\)模型首先在对象候选框上使用对数损失来微调卷积...
RCNN
目标识别是比单一的图像识别要复杂得多,算法模型要识别出图片哪里有哪些目标并将其框出来。Ross Girshick大神提出了一种利用卷积神经网络加上支持向量机的算法模型用于目标检测。下面是对这个经典模型进行的简单解析。 基础结构 首先是目标定位问题,作者通过区域识别的方法来解决,这里采用的是\(selective \ search\)。即从图片中框选出候选区域参加后续模型的训练。其次是训练数据稀疏的问题,论文提出了在一个大的辅助数据集中有监督的预训练,之后在一个小数据集中进行特定部分的微调。实验结果也证实了这种方法是有效的。大致结构如下: 主要有三个组成部分: 生成与类别无关的候选...
ResNet
首先祝所有教师节日快乐,感谢你们赠人玫瑰手留余香的奉献精神。然后时隔将近一个月,我又滚回来更新博客了,之前一直在忙着入职这件事,希望能尽快融入公司开发业务中而”忙碌“了一个月。接下来继续经典图像识别网络模型的介绍。上文我们已经介绍了AlexNet和VGG网络,这两个网络都将当时的神经网络的深度发挥到了极致,后续的神经网络模型性能基本上好不了多少。这是由于随着网络的加深,在误差后向传播时,靠前的网络层权重基本得不到更新,一直维持在某一个值附近。在2015年,何凯明大神提出了一种快捷连接方式将误差传播到了前面的网络层,很大程度上提高了网络的性能。下面简单解析一下ResNet网络。 快捷连...
区分几种归一化算法
神经网络已经有几个归一化算法了,它们长得都很相似,基本上都有统一的形式。本文参考了知乎专栏SIGAI关于归一化算法的文章,具体链接在文章底部。 基本问题 在使用神经网络对数据集进行学习时,由于数据集的来源可能有着较大的差异,数据集不同属性的取值有时也会有很大的范围,这些都会引起数据的取舍误差,导致神经网络的学习效果不佳。为了解决这个问题,我们对数据进行归一化处理,即将有着角的取值方位的数据规范到同一尺度下,这样处理有利于网络的学习。发展到现在,归一化有了许多变种算法,常见的有:Batch Normalization(BN)、Layer Normalization(LN)、Instan...
VGG
VGG(Visual geometry group)是继AlexNet后的又一个经典卷积神经网络模型。它在2014年的ILSVRC比赛中获得了第二名(第一名是GoogleLeNet模型),在工作和个人使用中应用较多的是VGG16和VGG19,这里16和19表示的是神经网络的层数。这里接上文提到的AlexNet网络模型对VGG模型进行解析。 基础架构 模型训练输入图像为\(224 \times 224\)的RGB图像,唯一的预处理为对训练集的每个像素减去训练集上的平均RGB值。卷积层选用的核大小是\(3 \times 3\),步长为1,部分卷积核采用\(1 \times 1\)尺寸;最...
AlexNet
如今的深度神经网络已经具有了完备的能力,特别是在视觉领域已经接近甚至超过了人类的视觉能力,而在这些深度学习网络的背后都含有着一个基本框架,即卷积神经网络(CNN)。CNN的主要应用范围是在计算机视觉领域,这里我简单的介绍一下CNN中的经典模型AlexNet。AlexNet是由Alex Krizhevsky等人在2012年提出的,虽然现在这个模型已经比较少见了(大多数都使用resnet什么的),这个在当时的目标检测领域有着很好的表现,也为后续的其它CNN框架奠定了基础。 介绍 为了从几百万张图片中学会识别几千个目标对象,Krizhevsky等人构建了一个具有强学习能力的模型,同时考虑到...
NOTICE~~~
讲道理,出大问题 以下文字竟毫无实质内容 这几个月经历了疯狂的大四下学期,大家都赶在毕业前拼了命地聚餐、唱K、旅游,而我也被卷入其中。。。 博客也无缘无故的断更了近一学期,讲道理,出大问题。毕业后经过短暂的休息,前几天我入职了。现在处于试用期,工作上面的话我个人觉得还~行~吧,毕竟我觉得第一份工作还是以学习为主要吧,至于这个工资...只要学有所成,最后钱都不是问题对吧。不过讲道理,心态有点小崩,真的有点小崩。。。 总之,就先这样吧...
avatar
simplestory
I am fine