石油研究生也会用深度学习吗

繁荣的刺猬

2023-04-23 10:05:51

石油研究生也会用深度学习吗

最佳答案

甜美的硬币

2026-01-28 00:14:54

会。随着如今深度学习的流行，因此主要在利用深度学习算法对油气管道泄露检测方面做一些工作。有序安全高效开展钻探、开发、开采及储运而实施的系列工袭逗棚程，是当今人拍则类认识地壳岩层并开发利用深部资源的一项知识密集、资金密指差集、技术密集的系统。

最新回答

甜甜的汉堡

2026-01-28 00:14:54

电气工程可以利用深度学习技术来改善自动化系统的性能，实现自动检测和识别环境中各种设备、元件等，如转动机构、轴承、电器、光滚岩源等。使用深度学习技术，可以从图像或视频中快速检测出设备的位孝笑置和形状，进行定量的预测和分析，实现自巧备含动控制和调节系统。此外，深度学习技术还可以用于分析电气系统中的数据，帮助识别可能出现的问题，从而有效提高电气工程的管理水平。

大方的画笔

2026-01-28 00:14:54

1 使用复杂的模型：使用更复杂的深度学习模型，如卷积神经网络（CNN）、循环神经网袭罩络（RNN）或变分自编码器（VAE）等，可以提高图异常检测的准确性。

2 结合图像和图数据：结合图像和图数据可以提高异常检测的准确性，例如可以使用卷积神经网猜激络（CNN）提取图像特征，然后将这些特征与图数据结合使用来进行异常检测。

3 弱化异常数据的拍兆闹影响：通过对异常数据进行去噪、降维等处理，可以减少异常数据对整个图的影响，从而提高异常检测的准确性。

4 结合其他数据源：将图数据与其他数据源结合使用，例如社交网络数据、地理信息数据、生物数据等，可以提高异常检测的准确性。

5 优化损失函数：通过设计更合理的损失函数，可以提高异常检测模型的准确性。例如，可以设计基于图结构的损失函数、基于异常度量的损失函数等。

6 数据增强：通过对图数据进行增强，例如添加噪声、旋转、缩放等，可以增加训练数据的多样性，提高异常检测模型的准确性。

欣慰的汽车

2026-01-28 00:14:54

可以的，目前很多电子产品类的检测都已采用自动化AI智能检测识别来代替人工判断，在提高效率的同时，又可降低企业孝裤人工成本，还能让机器保持碰余长时间高精度标准的巧吵简工作状态，有效避免因人工的疲劳、误判、漏判等带来的不良影响。可以选择电子元器件缺陷检测机 AI外观缺陷检测机 CCD缺陷检测设备等。自己也可以去百度。

激昂的小土豆

2026-01-28 00:14:54

本文适合刚入门物体检测的人群学习，不涉及公式推理。

相比于图像分类，图像中物体检测是计算机视觉中一个更加复杂的问题，因为图像分类只需要判断出图像属于哪一类就行，而在物体检测中，图像里可能有多个物体，我们需要对所有物体进行种类判别和位置确定，所以比图像分类更具有挑战性，应用于物体检测的深度学习模型也会更加复杂。本文将会着重介绍几种基于深度学习的物体检测方法。

待识别的物体有20类：

person

bird, cat, cow, dog, horse, sheep

aeroplane, bicycle, boat, bus, car, motorbike, train

bottle, chair, dining table, potted plant, sofa, tv/monitor

Detection Label (Ground truth)格式：

提交结果文件格式：

有YOLO、SSD、rcnn、fast rcnn及faster rcnn等

注：后边部分内容会对算法进行详细介绍

针对单个物体实例而言，通常由于图像采集过程中光照条件、拍摄视角、距离的不同，物体自顷神身的非刚体形变以及其他物体的部分遮挡使得物体实例的表观特征产生很大的变化，给视觉识别算法带来了极大的困难。

属于同一类的物体表观特征差别比较大，其原因有前面提到的各种实例层次的变化，但这里更强调的是类内不同实例的差别，例如图 3(a)所示，同样是椅子，外观却是千差万别；其次是类间模糊性，即不同类的物体实例具有一定的相似性，如图 3(b)所示，左边的是一只狼，右边的是一只哈士奇，但我们从外观上却很难分开二者；再次是背景的干扰，在实际场景下，物体不可能出现在一个非常干净的背景下，往往相反，背景可能是非常复杂的、对我们感兴趣的物体存在干扰的，这使得识别问题的难度大大加大。

困难与挑战与图像的视觉语义相关，这个层次的困难往往非常难以处理，特别是对现在的计算机视觉理论水平而言。一个典型的问题称为多重稳定性。如图所示，图 3(c)左边既可以看成是两个面对面的人，也可以看成是一个燃烧的蜡烛；右边则同时可以解释为兔子或者小鸭。同样的图像，不同的解释，这既与人的观察视角、关注点等物理条件有关，也与人的性格、经历雀巧亏等有关，而这恰恰是视觉识别系统难以很好处理的部分。

bounding box:矩形框

SPP：Spatial Pyramid Pooling

SVM:支持向量机

RPN：Region Proposal Network

区域检测模块主要处理图像检测区域窗口的问题。根据获得区域待检测窗口方法的不同，物体检测方法大致可分为稠密检测窗提取（蛮力搜索）和稀疏检测窗两类方法。稠密检测窗提取方法，比如滑动窗法，相对比较简单，它是通过使用训练好的模板在输入图像的多个尺度上图像金字塔上进行滑动扫描，通过确定最大响应位置找到目标物体的矩形窗口。稀疏检测窗提取方法，则一般利用某些先验或其他图像任务的结果，选择最有可能成为物体的检测窗口，比如选择性搜方法，对图像分割的结果进行利用，通过区域融合生产目标检测窗。（算法具体内容自行了解，比如边缘盒算法，选择性算法）

这是最重要和最关键的步骤，传统的特征提取方法，比如HOG、SIFT特征，通过计算图像局部区域的梯度特征，得到图像边缘或角点特征。相比现在深度学习的提取特征方法，这些方法都是根据图像的某些性质通过人工设计相应的特征。缺点很明显，第一人工设计很麻烦，第二很具有局限性，特征提取不够完整，而深度卷积神经网络就可以客服这些不足。

分类器模块是物体图像检测与分类系统的结果输出，用于评价整个检测系统的性能。在模式识别和机器学习领域中，常用的分类器包括：逻辑回归、softmax、SVM、ada-boost等。在深度学习模型中一般采用SVM和softmax。

暂时略

既然传统的物体检测方法局限性很大，此时随着深度学习的发展，基于深宽段度学习的物体检测算法R-CNN横空出世了。

Fast-RCNN主要贡献在于对R-CNN进行加速，只有速度够快，才能做到实时处理。那么Fast-RCNN是改进了R-CNN哪些地方提高了处理速度呢？

SPP：Spatial Pyramid Pooling（空间金字塔池化）

它有两个特点:

1结合空间金字塔方法实现CNNs的多尺度输入。

一般CNN后接全连接层或者分类器，他们都需要固定的输入尺寸，因此不得不对输入数据进行crop或者warp，这些预处理会造成数据的丢失或几何的失真。SPP Net的第一个贡献就是将金字塔思想加入到CNN，实现了数据的多尺度输入。在卷积层和全连接层之间加入了SPP layer。此时网络的输入可以是任意尺度的，在SPP layer中每一个pooling的filter会根据输入调整大小，而SPP的输出尺度始终是固定的。

2只对原图提取一次卷积特征

在R-CNN中，每个候选框先resize到统一大小，然后分别作为CNN的输入，这样是很低效的。所以SPP Net根据这个缺点做了优化：只对原图进行一次卷积得到整张图的feature map，然后找到每个候选框zaifeature map上的映射patch，将此patch作为每个候选框的卷积特征输入到SPP layer和之后的层。节省了大量的计算时间。

Fast-RCNN正是通过融合了SPP的设计（这一层称之为ROI Pooling），有了以上这两个优点，使得Fast-RCNN比R-CNN快多了。

原来的方法：许多候选框（比如两千个）-->CNN（两千次卷积）-->得到每个候选框的特征（不同尺度特征图不行）-->分类+回归

现在的方法：一张完整-->CNN（一次卷积）-->得到每张候选框的特征（可以不同尺度特征图不行，因为这里加了一层SSP net 称之为ROI Pooling）-->分类+回归

其还有个贡献是多任务Loss层：将分类和边框回归进行合并（又一个开创性的思路），通过多任务Loss层进一步整合深度网络，统一了训练过程，从而提高了算法准确度。

Fast-RCNN虽然加快了不少速度，但是其选择性搜索，找出所有的候选框，这个也非常耗时，于是有人就在Fast-RCNN的基础上解决了这个问题，提出了更快的Faster-RCNN。

Faster-RCNN特点（创新点）：候选框提取不一定要在原图上做，特征图上同样可以，在低分辨率上做意味着计算量减小。

那么怎么在特征图上做候选框提取呢：于是有人提出了用神经网络去做，加入一个边缘提取的神经网络，称之为Region Proposal Network(RPN)。

具体加入方法：

• 将RPN放在最后一个卷积层的后面

• RPN训练好后能使用其直接得到候选区域

>AOI中文全称是自动光学检测。通过高速高分辨率的工业成像模块，搭载高稳定高精度的机械结构，对待检物进行稳定成像。依托智能检测算法，对待检物的错、漏、反、虚焊等缺陷进行有效检碧郑早出。使用AOI可对生产过程中的缺陷进行有效发现，提升工艺品质，为工悔雀厂降本增效。

随着科技的发展，工厂对工艺的要求越来越高，更先进的制程不断出现，AOI已经由“选配”转变为“标配”。数之联追光系列AOI是一款基于深度学习，核心采用自研深度学习目标检测与异常检测框架的产品。

（1)与传统AOI对比，基于深度学习的AOI将之前1-2小时的调试时间缩短为30分钟以内丛锋。同时检出率可以达到9995%，误判率低于03%。

（2）与同类解决方案对比，追光系列AOI搭载数之联深度学习神经网络模型，该模型是数之联集合了泛半导体行业多个成功落地经验及海量缺陷数据，训练出的可兼容焊点形态变化、高泛化模型，能切实解决传统AOI在编程/调试时间过长、误判过高、因人而异的操作结果等核心痛点。

直率的荷花

2026-01-28 00:14:54

目标检测（object detection）是计算机视觉中非常重要的一个领域。在卷积神经网络出现之前，都利用一些传统方法手动提取图像特征进行目标检测及定位，这些方法不仅耗时而且性能较低。而在卷积神经网络出现之后，目标检测领域发生了翻天覆地的变化。最著名的目标检测系统有RCNN系列、YOLO和SSD，本文将介绍RCNN系列的开篇作RCNN。

RCNN系列的技术演进过程可参见基于深度学习的目标检测技术演进：R-CNN、Fast R-CNN、Faster R-CNN 。

目标检测分为两步：第一步是对图像进行分类，即图像中的内容是什么；第二步则是对图像进行定位，找出图像中物体的具体位置。简单来说就是图像里面有什么，位置在哪。

然而，由于不同中物体出现的大小可能不同（多尺度），位置也可能不同，而且摆放角度，姿态等都可以不同，同时一张中还可以出现多个类别。这使得目标检测任务异常艰难。

上面任务用专业的说法就是：图像识别+定位

两个不同的分支分别完成不同的功能，分类和定位。回归（regression）分支与绝告分类分支（classification）共享网络卷积部分的参数值。

还是刚才的分类识别+回归定位思路。只是现在我们提前先取好不同位置的框，然后将这个框输入到网络中而不是像思路一将原始图像直接输入到网络中。然后计算出这个框的得分，取得分最高的框。

如上，对于同一个图像中猫的识别定位。分别取了四个角四个框进行分类和回归。其得分分别为05,075,06,08，因此右下角得分最高，选择右下角的黑框作为目标位置的预测（这里即完成了定位任务）。

这里还有一个问题——检测位置时的框要怎么取，取多大？在上面我们是在257x257的图像中取了221x221的4个角。以不同大小的窗口从左上角到右下角依次扫描的话，数据量会非常大。而且，如果考虑多尺度问题的话，还需要在将图像放缩到不同水平的大小来进行计算，这样又大大增加了计算量。如何取框这个问题可以说是目标检测的核心问题之一了，RCNN，fast RCNN以及faster RCNN对于这个问题的解决办法不断地进行优化，这个到了后面再讲。

总结一下思路：

对于一张，用各种大小的框将截取出来，输入到CNN，然后CNN会输出这个框的类别以及其位置得分。

对于检测框的选取，一般是采用某种方法先找出可能含有物体的框（也就是候选框，比如1000个候选框），这些框是可以互相重叠互相包含的，这样我们就可以避免暴力枚举所有框了。

讲完了思路，我们下面具体仔细来看看RCNN系列的实现，本篇先介绍RCNN的方法。

R-CNN相比于之前的各种目标检测算法，不仅在准确率上有了很大的提升，在运行效率上同样提升很大。R-CNN的过程分为4个阶段：

在前面我们已经简单介绍了selective search方法，通过这个方法我们筛选出了2k左右的候选框。然而搜索出的矩形框大小是不同的。而在AlexNet中由于最后全连接层的存在，对于图像尺寸有固定的要求，因此在将候选框输入之前，作者对这些候选框的大小进行了统一处理——放缩到了统一大小。文章中作者使用的处理方法有两种：

（1）各向异性缩放

因为扭曲可能会对后续CNN模型训练产生影响，于是作者也测试了各向同性缩放的方法。有两种方法：

此外，作者对于bounding box还尝试了padding处腔亏理，上面的示意图中第1、3行就是结合了padding=0，第2、4行结果采用padding=16的结果。经过最后的试验，作伍宏神者发现采用各向异性缩放、padding=16的精度最高。

卷积神经网络训练分为两步：（1）预训练；（2）fine-tune。

先在一个大的数据集上面训练模型（R-CNN中的卷机模型使用的是AlexNet），然后利用这个训练好的模型进行fine-tune（或称为迁移学习），即使用这个预训练好的模型参数初始化模型参数，然后在目标数据集上面进行训练。

此外，在训练时，作者还尝试采用不同层数的全连接层，发现一个全连接层比两个全连接层效果要好，这可能是因为使用两个全连接层后过拟合导致的。

另一个比较有意思的地方是：对于CNN模型，卷积层学到的特征其实就是基础的共享特征提取层，类似于传统的图像特征提取算法。而最后的全连接层学到的则是针对特定任务的特征。譬如对于人脸性别识别来说，一个CNN模型前面的卷积层所学习到的特征就类似于学习人脸共性特征，然后全连接层所学习的特征就是针对性别分类的特征了。

最后，利用训练好的模型对候选框提取特征。

关于正负样本的问题：由于选取的bounding box不可能与人工label的完全相同，因此在CNN训练阶段需要设置IOU阈值来为bounding box打标签。在文章中作者将阈值设置为05，即如果候选框bounding box与人工label的区域重叠面积大于05，则将其标注为物体类别（正样本），否则我们就把他当做背景类别（负样本）。

作者针对每一个类别都训练了一个二分类的SVM。这里定义正负样本的方法与上面卷积网络训练的定义方法又不相同。作者在文章中尝试了多种IoU阈值（01~05）。最后通过训练发现，IoU阈值为03的时候效果最好（选择为0精度下降了4个百分点，选择05精度下降了5个百分点）。即当IoU小于03的时候我们将其视为负样本，否则为正样本。

目标检测问题的衡量标准是重叠面积：许多看似准确的检测结果，往往因为候选框不够准确，重叠面积很小。故需要一个位置精修步骤。

在实现边界回归的过程中发现了两个微妙的问题。第一是正则化是重要的：我们基于验证集，设置λ=1000。第二个问题是，选择使用哪些训练对(P,G)时必须小心。直观地说，如果P远离所有的检测框真值，那么将P转换为检测框真值G的任务就没有意义。使用像P这样的例子会导致一个无望的学习问题。因此，只有当提案P至少在一个检测框真值附近时，我们才执行学习任务。“附近”即，将P分配给具有最大IoU的检测框真值G（在重叠多于一个的情况下），并且仅当重叠大于阈值（基于验证集，我们使用的阈值为06）。所有未分配的提案都被丢弃。我们为每个目标类别执行一次，以便学习一组特定于类别的检测框回归器。

在测试时，我们对每个提案进行评分，并预测其新的检测框一次。原则上，我们可以迭代这个过程（即重新评估新预测的检测框，然后从它预测一个新的检测框，等等）。但是，我们发现迭代不会改进结果。

使用selective search的方法在测试上提取2000个region propasals ，将每个region proposals归一化到227x227，然后再CNN中正向传播，将最后一层得到的特征提取出来。然后对于每一个类别，使用为这一类训练的SVM分类器对提取的特征向量进行打分，得到测试中对于所有region proposals的对于这一类的分数，再使用贪心的非极大值抑制（NMS）去除相交的多余的框。再对这些框进行canny边缘检测，就可以得到bounding-box(then B-BoxRegression)。

参考：

Rich feature hierarchies for accurate object detection and semantic segmentation

RCNN-将CNN引入目标检测的开山之作-晓雷的文章

基于深度学习的目标检测技术演进：R-CNN、Fast R-CNN、Faster R-CNN

R-CNN 论文翻译

傲娇的蜜蜂

2026-01-28 00:14:54

如何从图像中解析出可供计算机理解的信息，是机器视觉的中心问题。深度学习模型由于其强大的表示能力，加之数据量的积累和计算力的进步，成为机器视觉的热点研究方向。

那么，如何理解一张？根据后续任务的需要，有三个主要的层次。

一是分类（Classification），即是将图像结构化为某一类别的信息，用事先确定好的类别(string)或实例ID来描述。这一任务是最简单、最基础的图像理解任务，也是深度学习模型最先取得突破和实现大规模应用的任务。其中，ImageNet是最权威的评测集，每年的ILSVRC催生了大量的优秀深度网络结构，为其他任务提供了基础。在应用领域，人脸、场景的识别等都可以归为分类任务。

二是检测（Detection）。分类任务关心整体，给出的是整张的内容描述，而检测则关注特定的物体目标，要求同时获得这一目标的类别信息和位置信息。相比分类，检测给出的是对前景和背景的理解，我们需要从背景中分离出感兴趣的目标，并确定这一目标的描述（类别和位置），因而，检测模型的输出是一个列表，列表的每一项使用一个数据组给出检出目标的类别和位置（常用矩形检测框的坐标表示）。

三是分割（Segmentation）。分割包括语义分割（semantic segmentation）和实例分割（instance segmentation），前物侍者是对前背景分离的拓展，要求分离开具有不同语义的图像部分，而后者是检测任务的拓展，要求描述出目标的轮廓（相比检测框更为精细）。分割是对图像的像素级罩搭吵描述，它赋予每个像素类别（实例）意义，适用于理解要求较高的场景，如无人驾驶中对道路和非道路的分割。

两阶段模型因其对的两阶段处理得名，也称为基于区域（Region-based）的方法，我们选取R-CNN系列工作作为这一类型的代表。

本文的两大贡献：1）CNN可用于基于区域的定位和分割物体；2）监督训练样本数紧缺时，在额外的数据上预训练的模型经过fine-tuning可以取得很好的效果。第一个贡献影响了之后几乎所有2-stage方法，而第二个贡献中用分类任务（Imagenet）中训练好的模型作为基网络，在检测问题上fine-tuning的做法也在之后的工作中一直沿用。

传统的计算机视觉方法常用精心设计的手工特征(如SIFT, HOG)描述图像，而深度学习的方法则倡导习得特征，从图像分类任务的经验来看，CNN网络自动习得的特征取得的效果已经超出了手工设计的特征。本篇在局部区域应用卷积网络，以发挥卷积网络学习高质量特征的能力。

R-CNN将检测抽象为两个过程，一是基于提出若干可能包含物体的区域（即的局部裁剪，被称为Region Proposal），文中使用的是Selective Search算法；二是在提出的这些区域上运行当时表现最好的分类网络（AlexNet），得到每个区域内物体的类别。

另外，文章中的两个做法值得注意。

一是数据的准备。输入CNN前，我们需要根据Ground Truth对提出的Region Proposal进行标记，这里使用的指标是IoU（Intersection over Union，交并比）。IoU计算了两个区域之交的面积跟它们之并的比，描述了两个区域的重合程度。

文章中特别提到，IoU阈值的选择对结果影响显著，这里要谈两个threshold，一个用来识别正样本（如跟ground truth的IoU大于05），另一个用来标记负样本（即背景类，如IoU小于01），而介于两者之枝铅间的则为难例（Hard Negatives），若标为正类，则包含了过多的背景信息，反之又包含了要检测物体的特征，因而这些Proposal便被忽略掉。

另一点是位置坐标的回归（Bounding-Box Regression），这一过程是Region Proposal向Ground Truth调整，实现时加入了log/exp变换来使损失保持在合理的量级上，可以看做一种标准化（Normalization)操作。

R-CNN的想法直接明了，即将检测任务转化为区域上的分类任务，是深度学习方法在检测任务上的试水。模型本身存在的问题也很多，如需要训练三个不同的模型（proposal, classification, regression）、重复计算过多导致的性能问题等。尽管如此，这篇论文的很多做法仍然广泛地影响着检测任务上的深度模型革命，后续的很多工作也都是针对改进这一工作而展开，此篇可以称得上"The First Paper"。

文章指出R-CNN耗时的原因是CNN是在每一个Proposal上单独进行的，没有共享计算，便提出将基础网络在整体上运行完毕后，再传入R-CNN子网络，共享了大部分计算，故有Fast之名。

上图是Fast R-CNN的架构。经过feature extractor得到feature map, 同时在原图上运行Selective Search算法并将RoI（Region of Interset，实为坐标组，可与Region Proposal混用）映射到到feature map上，再对每个RoI进行RoI Pooling操作便得到等长的feature vector，将这些得到的feature vector进行正负样本的整理（保持一定的正负样本比例），分batch传入并行的R-CNN子网络，同时进行分类和回归，并将两者的损失统一起来。

文章最后的讨论也有一定的借鉴意义：

Fast R-CNN的这一结构正是检测任务主流2-stage方法所采用的元结构的雏形。文章将Proposal, Feature Extractor, Object Classification&Localization统一在一个整体的结构中，并通过共享卷积计算提高特征利用效率，是最有贡献的地方。

Faster R-CNN是2-stage方法的奠基性工作，提出的RPN网络取代Selective Search算法使得检测任务可以由神经网络端到端地完成。粗略的讲，Faster R-CNN = RPN + Fast R-CNN，跟RCNN共享卷积计算的特性使得RPN引入的计算量很小，使得Faster R-CNN可以在单个GPU上以5fps的速度运行，而在精度方面达到SOTA（State of the Art，当前最佳）。

本文的主要贡献是提出Regional Proposal Networks，替代之前的SS算法。RPN网络将Proposal这一任务建模为二分类（是否为物体）的问题。

第一步是在一个滑动窗口上生成不同大小和长宽比例的anchor box（如上图右边部分），取定IoU的阈值，按Ground Truth标定这些anchor box的正负。于是，传入RPN网络的样本数据被整理为anchor box（坐标）和每个anchor box是否有物体（二分类标签）。RPN网络将每个样本映射为一个概率值和四个坐标值，概率值反应这个anchor box有物体的概率，四个坐标值用于回归定义物体的位置。最后将二分类和坐标回归的损失统一起来，作为RPN网络的目标训练。

由RPN得到Region Proposal在根据概率值筛选后经过类似的标记过程，被传入R-CNN子网络，进行多分类和坐标回归，同样用多任务损失将二者的损失联合。

Faster R-CNN的成功之处在于用RPN网络完成了检测任务的"深度化"。使用滑动窗口生成anchor box的思想也在后来的工作中越来越多地被采用（YOLO v2等）。这项工作奠定了"RPN+RCNN"的两阶段方法元结构，影响了大部分后续工作。

单阶段模型没有中间的区域检出过程，直接从获得预测结果，也被成为Region-free方法。

YOLO是单阶段方法的开山之作。它将检测任务表述成一个统一的、端到端的回归问题，并且以只处理一次同时得到位置和分类而得名。

YOLO的主要优点：

1准备数据：将缩放，划分为等分的网格，每个网格按跟Ground Truth的IoU分配到所要预测的样本。

2卷积网络：由GoogLeNet更改而来，每个网格对每个类别预测一个条件概率值，并在网格基础上生成B个box，每个box预测五个回归值，四个表征位置，第五个表征这个box含有物体（注意不是某一类物体）的概率和位置的准确程度（由IoU表示）。测试时，分数如下计算：

等式左边第一项由网格预测，后两项由每个box预测，以条件概率的方式得到每个box含有不同类别物体的分数。因而，卷积网络共输出的预测值个数为S×S×(B×5+C)，其中S为网格数，B为每个网格生成box个数，C为类别数。

3后处理：使用NMS（Non-Maximum Suppression，非极大抑制）过滤得到最后的预测框

损失函数被分为三部分：坐标误差、物体误差、类别误差。为了平衡类别不均衡和大小物体等带来的影响，损失函数中添加了权重并将长宽取根号。

YOLO提出了单阶段的新思路，相比两阶段方法，其速度优势明显，实时的特性令人印象深刻。但YOLO本身也存在一些问题，如划分网格较为粗糙，每个网格生成的box个数等限制了对小尺度物体和相近物体的检测。

SSD相比YOLO有以下突出的特点：

SSD是单阶段模型早期的集大成者，达到跟接近两阶段模型精度的同时，拥有比两阶段模型快一个数量级的速度。后续的单阶段模型工作大多基于SSD改进展开。

最后，我们对检测模型的基本特征做一个简单的归纳。

检测模型整体上由基础网络（Backbone Network）和检测头部（Detection Head）构成。前者作为特征提取器，给出图像不同大小、不同抽象层次的表示；后者则依据这些表示和监督信息学习类别和位置关联。检测头部负责的类别预测和位置回归两个任务常常是并行进行的，构成多任务的损失进行联合训练。

另一方面，单阶段模型只有一次类别预测和位置回归，卷积运算的共享程度更高，拥有更快的速度和更小的内存占用。读者将会在接下来的文章中看到，两种类型的模型也在互相吸收彼此的优点，这也使得两者的界限更为模糊。

安详的时光

2026-01-28 00:14:54

简而言之：机器学习是实现人工智能得方法，深度学习是实现机器学习得技术。机器学习在实现人工智能时需要人工辅助（半自动），而深度学习是使得改过程完全自动化。至今已有数散唯种深度学习框架，如深度神经网络、卷积神经网络和深度置信网络和递归神经网络已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

这三者之间得关系如下所示：

举个例子：通过机器学习算法来识别水果是橘子还是苹果，需要人工输入水果的特征数据，生成一定的算法模型，进而可以准确预测具有这些特征的水果的类型，而深度学习则能自动的去发现特征进而判断。

2深度学习能做什么

其实咱们的实际生活中已经有很多应用深度学习技术的案例了。

比如电商行业，在浏览淘宝时，页面中有很多都是符合你的爱好并且最近有意向购买的商品，这种个性化推荐中就涉及到深度学习技术，还有就是在购物界面能和你进行对话，解决疑问的淘宝智能机器人，也涉及深度学习技术。京东正围绕其主要的业务方向，包括电商、金融和云，进行相关的数据分析、深度学习，最终体现在应用中，涵盖商品推荐、JIMI机器人、精准广告、物流仓储等各个环节

比如交通领域，通过深度学习技术能监测到车辆停车、逆行等行为，甚至精确识别车辆的车牌号慧肢、颜色、车型、车辆里的人物等来辅助交通执法，甚至在发生交通事故和交通拥堵时进行报警等。

比如金融行业，银行通过深度学习技术能对数以百万的消费者数据(年龄，职业，婚姻状况等)、金融借款和保险情况(是否有违约记录，还款时间，车辆事故记录等)进行分析进而判断出是否能进行贷款服务。

比如家居行业，智能家居的应用也用到了深度学习技术，比如智能冰箱通过图像识别等技术记录食材种类和用户日常饮食数据，进而分析用户的饮食习惯，并根据多维度给出最全面的健康膳食建议。

比如制造行业，机器视觉已经长期应用在工业自动化系统中，如仪表板智能集成测试、金属板表前掘世面自动控伤、汽车车身检测、纸币印刷质量检测、金相分析、流水线生产检测等等，机器视觉自动化设备可以代替人工不知疲倦的进行重复性的工作，且在一些不适合于人工作业的危险工作环境或人工视觉难以满足要求的场合，机器视觉可替代人工视觉。

还有教育行业、医疗行业等，深度学习技术已经渗透到各个行业和领域

3 深度学习目前还面临得难题

比如就开篇提到的商品推荐问题，翁志就讲到，目前在这方面京东还是有很大提升空间的，而他们也在努力提升这方面的能力。同时他也指出，这其中的难度还是很大，比如即便京东在数据质量(包括数据类型、数据准确性等)方面是同行中算是出类拔萃的，但是由于平台每天都有大量新的数据产生，再加上这些新数据的准确性又没办法准确评估，非常容易导致最终的分析结果出现偏差。

既有技术层面的问题，也有数据质量方面的不足，而且这不是京东一家面临的问题，几乎是全行业所要面对的。一方面需要继续增强计算能力(因为机器需要学习的内容太多、需要的计算量太大，所以只有并行计算这种方式才能满足，而GPU就是并行计算的典型代表，而这也是为什么NVIDIA大谈特谈深度学习的一个主要因素)。另一方面，企业则要在数据质量方面多下功夫。前者由像NVIDIA这样的技术平台主导，而后者则需要相关企业多把关，当然这其中也涉及到技术能力，毕竟靠人力审核的时代已经过去了。

所以说简单点，要提升人工智能的水平，关键之处还是在于计算能力、GPU技术水平的提升。

端庄的大白

2026-01-28 00:14:54

第一类： FCN（完全卷积网络）

简介FCN是一种端到端的深度学习图像分割算法，让网络做像素的预测，直接得到label map

传统cnn缺点：存储开销大，效率低下，像素块的大小限制了感受区域的大小

FCN改变了什么：经典的cnn在卷积层之后时使用了全连接层得到固定长度的整个输入图像的概率向量，适合用于图像的分类和回归任务，经过 softmax后可以获得类别概率信息，但是这个概率信息是1维的，只能表示出整个图像的类别，所以这种全连接方法不适用于图像分割。FCN将Cnn的全连接层换成卷积层（1000个节点的全连接层换成1000个11的卷积核的卷积层），这样可以得到2维的fp,再通过softmax可以得到每个像素点的类别信息，从而解决分割问题。

FCN结构:FCN可以接受任何尺寸的输入图像，在最后得到的fp后，通过亮桐让反卷积层进行上采样，使他恢复到输入图像的尺寸，从而可以对每一个像素都产生预测,保留原始图像当中的空间信息。

为啥cnn不能随便尺寸输入：因为cnn的全连接层会得到一个拉直的向量，向量中比方说有nn个元素，这nn个元素每个元素当作一个结点与下一层全连接，如果下一层比方说节点数是4096，权值数就是4096nn。神经网络结构确定，那么权值数就要确定了，上一层的输出就不能变了，然后倒着往前推，每轮巧一层输出都不能变，因此输入就必须得固定。

skip state:由于最后这个特征图太小，容易丢失很多细节，增加一个skip state这样的一个结构，最后一层的预测（局部信息）和更浅层（全局信息）预测结合起来，这样就是既局部还全局。

FCN缺点：实施推理速度不够快，对各个像素进行分类，没有考虑像素与像素之间的一个关系，不容易移植到三维图像当中。

第二类：基于CNN和完全连接的CRF的语义分割算法

FCN可能忽略了有用的场景级语义上下文，为了集成更多上下文信息

cnn+crf>cnn+softmax

fcn得到粗分值图，经过双线性插值上采样恢复分辨率，然后再将它传递给全连接的crf层细化分割结果。最终实验表明：有更高的准确率来定位边界。

第三类：编码器加解码器结构（unet,vnet）

分为一般的分割跟医学图像的分割。

一个是使用从VGG 16层网络采用的卷积层的编码器，另一个是将特征向量作为输入并生成像素级类概率图的反卷积网络。

segnet

SegNet的主要新颖之处在于解码器对其较低分辨率的输入特征图进行升采样。具体来说，它使用在相应编码器的最大池化步骤中计敬局算出的合并索引来执行非线性上采样，从而消除了学习上采样的需求与其他竞争性体系结构相比，SegNet的可训练参数数量也明显更少并且能够提升边缘刻画度。 (ex:SDN,Linknet,w-net)

segnet的encoder过程中卷积起到提取特征的作用，使用的是same卷积，卷积后不改变的大小。同时在decoder过程中，同样是采用了same卷积，作用是upsample之后丰富变大的信息

u-net

（医学影像分割的论文几乎都是用u-net来改良的）

在医学图像分割上,在编码器部分，类似于FCN，下采样采用conv33，全卷积神经网络。

上采样 conv22 ，插值法（不使用转置卷积，为了让特征图保持着均匀的色差）

最后有个11（将特征通道数降至特定的数量 )

为了降低在压缩路径当中造成的图像细节损失，作者会将压缩路径当中的fp叠加到拓张路径的相同尺寸的fp上，再进行conv,upsample以此整合更多更完整的图像信息。

v-net

基于FCN用于3D医学图像分析的图像分割网络。最后输出的是三维的单通道数据，代表每一个像素是前景还是背景的概率，如果概率大于05是前景，概率小于05是背景。

第四类：多尺度分析跟金字塔网络

尺度：分辨率多尺度：所训练出来的成功的模型，他在换到另一个尺度下很有可能失效

提出了一个pspnet,实现利用上下文信息的能力来进行场景解析，又到了老生常谈的问题，FCN不能很好的利用全局信息（比如说，FCN非认为右边是车，但是左边就有船坞，他不能利用这种线索来进行一个判断）

DM-Net (Dynamic Multi-scale Filters

Network) Context contrasted network and gated multi-

scale aggregation (CCN) Adaptive Pyramid Context

Network (APC-Net) Multi-scale context intertwining

(MSCI)

第五类：实例分割当中基于r-cnn的模型

r-cnnfast r-cnnfaster r-cnn mask r-cnn

Mask RCNN使用ResNet+FPN（特征金字塔网络）进行特征提取。顶层特征（最后一层特征图），感受野最大，特征信息最丰富，但对小物体的检测效果并不好。因此，将多个阶段的特征图融合在一起（FPN），这样既有了高层的语义特征，也有了底层的轮廓特征。

RoI Align替代RoI Pooling RoI Pooling有什么问题？经过两次量化，使特征图对应位置不准。

增加Mask分支（语义分割）Mask分支只做语义分割，类型预测的任务交给另一个分支。