想要转化为Caffe框架,就要先了解yolov3的网络结构,如下图。
如果有运行过darknet应该会很熟悉,这是darknet运行成功后打印log信息,这里面包含了yolo网络结构的一些信息。yolov3与v2相比,网络结构中加入了残差(shortcut层),并且引入了上采样(upsample层),并为了将采样后的特征图进行融合引入了拼接(route层),最后融合的特征图以三个不同的大小13*13*75,26*26*75,52*52*75输入给yolo层最后得到目标的位置及分类信息,加上卷积层convolution,这些便是yolov3的网络基本构造。因此只要我们如果在Caffe中找到对应的层按照相应的进行构造就能够使用Caffe实现yolov3了。
卷积层不说,yolov3中的shortcut层可以用eltwise替代,route层可以用concat替代,而upsample层和yolo层则需要自己实现,并添加到Caffe中即可。upsample层主要完成了上采样的工作,这里不细说。本文主要讲一下yolo层如何实现,上图中的YOLO Detection即为yolo层的所在位置,接收三种不同大小的特征图,并完成对特征图的解析,
得到物体的位置和类别信息
。所以其实yolo层主要起到了解析特征并输出检测结果的作用,这一过程我们完全可以在外部实现而无需加入到网络结构当中,也就是说我们无需将实现的yolo层加入到Caffe当中去。
通过上图(我自己花的灵魂解析图,凑活看吧),可以解释yolo层如何得到检测目标的位置和分类。Yolo层的input是一个13*13*N的特征图,其中13*13如果有看过yolov1的论文作者有给出过解释,其实就是图像被分成了13*13个grid cell,而每个grid中是一个长度为N的张量,其中的数据是这样分布的,前4个位置分别为x,y,w,h,用于计算目标框的位置;第5个位置为置信度值Pr(object)*IOU,表明了该位置的目标框包含目标的置信度;第5个位置往后则为该box包含物体类别的条件概率Pr(class|object),从class1~class n,n为你所需检测类别数。这样(x,y,w,h)+ Pr(object)*IOU + n*Pr(class|object)构成了box1的所有信息,而一个grid cell中含有3个这样的boxes,这就是输入到yolo层的特征图的直观解释。在yolo层进行检测的时候,首先判定每个box的包含物体的置信度值即p的值是否大于设定阈值thresh,如果大于该阈值则认为这个box中含有物体,读取位置信息(x,y,w,h)与对应的anchor box的信息计算得到物体框的实际位置。之后针对于每个含有物体的box,根据其类别概率判定其类别所属,再对同一类别的目标框进行非极大值抑制NMS,即得到最终结果。
以上即为yolo层所实现的检测过程简要介绍,具体的过程如何计算还需要看官们仔细看一下代码和论文,当然此过程不包括训练的前向和反向过程,仅包含推理。因此我们转换到Caffe框架下的yolov3也仅能实现推理过程,具体的训练还需要通过darknet来完成。
其中的upsample_layer.hpp放入include/caffe/layers下面;upsample_layer.cpp与upsample_layer.cu放在src/caffe/layers下面。