RPN网络详解

大意的月饼

2023-01-27 04:01:30

RPN网络详解

最佳答案

美好的飞机

2026-04-23 12:58:09

参考： https://towardsdatascience.com/region-proposal-network-a-detailed-view-1305c7875853#46ea

产生背景：

RPN生成的proposal就称为 Region of Interest.由于他们具有不同的尺度和长度，因此需要通过一个 ROI pooling层获得统一的大小

ROI pooling的解释如 https://towardsdatascience.com/region-of-interest-pooling-f7c637f409af

最新回答

隐形的蚂蚁

2026-04-23 12:58:09

在用FasterRCNN做检测时发现用原始的VGG16作为特征提取器，将提取的特征送入RPN网络的检测结果对小目标、边界不清晰等成像效果不好的图像效果不好，因此想要通过改进特征提取来提高检测精度。

通过调研利用神经网络解决小目标检测主要通过多尺度特征提取的方法，对图像进行多尺度特征提取主要有三种方法：

1、由于卷积后的pooling的使用导致网路对图像的感知域增大，因此很多文章都使用连接不同pooling层的网络结构提取多尺度特征。或者利用resNET和denseNet的连接方式弥补VGG16的不足扩增网络深度。

2. 对输入图像进行预处理得到多尺度的输入图像，在不同尺度下分别训练网路得到多组网路参数，最后通过FC层合并多尺度特征。

3. 与2类似在不改变图像尺度的前提下利用不同尺度的卷积核进行多尺度卷积，同样得到多组参数最后进行组合

4. 利用maxpooling的性质设计单向的多尺度网络（目前只看到一篇文章）

1. Automated pulmonary nodule detection in CT images using deep convolutional neural networks_PR_2019

2. An improved deep learning approach for detection of thyroid papillary cancer in ultrasound images_2018

3. DeepLung: Deep 3D Dual Path Nets for Automated Pulmonary Nodule Detection and Classification

4. Accurate Pulmonary Nodule Detection in Computed Tomography Images Using Deep Convolutional Neural Networks_2017

5. A Method of Ultrasonic Image Recognition for Thyroid Papillary Carcinoma Based on Deep Convolution Neural Network_14 March 2018

6. A Region Based Convolutional Network for Tumor Detection and Classification in Breast Mammography_MICCAI_2016

7. Context-aware pedestrian detection especially for small-sized instances with Deconvolution Integrated Faster RCNN (DIF R-CNN)

8. Deep Learning for Automatic Detection of Abnormal Findings in Breast Mammography_2017

9. Pedestrian Detection by Using CNN Features with Skip Connection

10. MFR-CNN: Incorporating Multi-Scale Features and Global Information for Traffic Object Detection_2018

11-15没仔细看用resNET和denseNet改进特征提取

11. A novel method for lung masses detection and location based on deep learning_2017

12. An evaluation of region based object detection strategies within X-ray baggage security imagery_2017

13. Boundary Regularized Convolutional Neural Network for Layer Parsing of Breast Anatomy in Automated Whole Breast Ultrasound_2017_medicalimage

14.Fully convolutional multi-scale residual DenseNets for cardiac segmentation and automated cardiac diagnosis using ensemble of classifiers_2019_Medical Image Analysis

15. Automatic Colon Polyp Detection Using Region Based Deep CNN and Post Learning Approaches_2018

paper：2、

理论ParseNet: Looking Wider to See Better该文章支出随着卷积的加深感知域增大不足以清晰的描述小尺度的信息，同时给出层间的特征尺度不同需要归一化l2. 论文解释

大部分文章选择连接VGG16的第三卷积层和第五卷积层，有文章证明这样效果最好，但是也有文章连接第四卷积层和第五卷积层。

通过对VGG16的第五卷积层解卷积直接送入RPN网络可以改善结果，但是文章没有说明理论依据

通过解卷积第五层回复图像大小到四分之一，然后和第三卷积层的输出送入双RPN网络，最终的loss由原来的四个变为留个进行改进

更复杂的利用最后三个卷积层形成三通道的RPN网络最终输出，我认为这样的改进没有必要

resNET网络的提出文章中的最后一段作者说明自己用resNET101作为特征提取结合fastrcnn的结果比用VGG16作为特征提取的结果更好，也有文章将这种改进实际应用效果有提升

resNET和denseNet这种参差连接的结构对于梯度传播和扩增网络深度都有很好的效果，因此可以应用

DeepLung 将resNet用于三维同时设计了解码部分使得整个网络类似于Unet，得到特征后送入三维的RPN网络调研中唯一一个三维的FasterRCNN。

inceptionResNETv2，是Googlenet和resNET结合的产物从垂直和水平两方面扩展了网络深度，但是没有进行block之间的连接，有文章利用改进VGG16时的方法进行block之间的连接，解卷积的操作改进inceptionResNet作为特征提取，结果有提升。但是我认为这样使得网络过于复杂在小的数据集上未必有好的效果。

1. Multi-scale Convolutional Neural Networks for Lung Nodule Classification_2015

这种方法计算量太大，在图像缩放前需要进行ROI提取，近年的文章少用，传统的多尺度手动特征提取有使用

1. Using Multi-level Convolutional Neural Network for Classification of Lung Nodules on CT images_2018

最后进行多尺度特征融合时的方法有待讨论

1. Multi-crop Convolutional Neural Networks for lung nodule malignancy suspiciousness classification _Pattern Recognition_2017

本文提到的方法在pooling后的特征图上进行中心剪裁，那么大部分未经预处理的图像目标可能不在图像中心

怕孤独的小懒虫

2026-04-23 12:58:09

Faster RCNN的一大创新点就是提出了“RPN”网络，在提高精度的同时提高了速度，这里讲一下RPN网络的训练。

RPN网络训练有两个Loss：

pi表示网络预测出来第i个anchor是目标的概率，pi* 表示对应的Ground Truth。若第i个anchor与某个真实目标的iou大于0.7，则pi* =1，小于0.3，则pi* =0，其余情况不参与训练；

ti表示参数化坐标向量，表示预测框和anchor框之间的偏移，ti*表示对应的Ground Truth，表示GT框和anchor框之间的偏移。

smooth L1 loss结合了L1和L2损失的优点，相比L1损失，smooth L1在0点可导，不影响收敛；相比L2损失，smooth L1对离群点、异常值不敏感，梯度变化相对更小，训练时不容易跑飞，所以鲁棒性更强。

笨笨的抽屉

2026-04-23 12:58:09

孪生网络模板大小为127×127×3。

根据孪生导向锚框RPN网络的实时目标跟踪方法，全卷积孪生网络输入模板127×127×3，也就是标记的样本图像，输入到孪生网络中的对应输入端口。

孪生网络是包含两个或多个相同的的子网络组件的神经网络。

傻傻的老虎

2026-04-23 12:58:09

通过上图可知我们以前提过的 DeepSort 模型就是属于SDE模型，相比较Two-stage的模型在检测模型中使用的是RPN网络，因此通过感受野的位置得到目标的对应特征（这里也是与SDE是有区别的），再通过特征提取器提取低维特征。

什么是JDE可以通过名字就能看出来（Jointly learns the Detector and Embedding model ），很明显相对于 DeepSort ，其实就是在我们做目标检测的同时多一个分支专门做特征提取的，也就是按名字理解的将特征提取器以及我们的检测器放在了一个网络。这里的特征提取器在DeepSort的原理已经说明，其实该作用也是用来做外部特征匹配，辅助我们进行id匹配，我们通常抽取该特征为128的低维特征。

参考 FairMOT--A Simple Baseline for Multi-Object Tracking

参考【MOT】CenterTrack深度解析

多了时间维度。

可参考 ByteTrack: Multi-Object Tracking by Associating Every Detection Box 。在deepsort基础上改动不大，加了点策略，仍然是两步式。

[1] 【MOT】对JDE的深度解析

[2] 【MOT】CenterTrack深度解析

[3] [Intensive Reading]MOT：Towards Real-Time Multi-Object Tracking_zhangxu-程序员宝宝

[4] 目标跟踪 - Towards Real-Time Multi-Object Tracking

[5] 【MOT】对FairMOT深度解析

[6] FairMOT--A Simple Baseline for Multi-Object Tracking

[7] ByteTrack: Multi-Object Tracking by Associating Every Detection Box