目标检测算法的分步介绍（第 1 部分）

如题所述

第1个回答 2022-07-28

英文原文： https://www.analyticsvidhya.com/blog/2018/10/a-step-by-step-introduction-to-the-basic-object-detection-algorithms-part-1/
对原文的表达有部分改动

在本文中，我们将更深入地研究可用于目标检测的各种算法。我们将从 RCNN 家族的算法开始，即 RCNN、Fast RCNN 和 Faster RCNN。在本系列即将发布的文章中，我们将介绍更高级的算法，如 YOLO、SSD 等。

下图是说明目标检测算法如何工作的一个流行示例。图像中的每个物体，从一个人到一只风筝，都以一定的精度被定位和识别。

让我们从最简单的深度学习方法开始，也是一种广泛使用的方法，用于检测图像中的目标——卷积神经网络（ CNN）。CNN 的内部工作原理如下：

我们将图像传递给网络，然后通过各种卷积和池化层处理，发送给全连接层。最后，我们以目标类别的形式获得输出。这相当简单，不是吗？对于每个输入图像，我们得到一个相应的类作为输出。我们可以使用这种技术来检测图像中的各种目标吗？让我们看看如何使用 CNN 解决一般的目标检测问题。

使用这种方法的问题在于图像中的目标可能具有不同的纵横比和空间位置。例如，在某些情况下，目标可能覆盖图像的大部分，而在某些情况下，目标可能仅覆盖图像的一小部分。目标的形状也可能不同（在现实生活中经常发生）。由于这些因素，我们将需要大量的区域，从而导致大量的计算时间。因此，为了解决这个问题并减少区域数量，我们可以使用基于区域的 CNN，它使用提案法选择区域。让我们了解这个基于区域的 CNN 可以为我们做什么。

与在大量区域上工作不同的是，RCNN 算法是在图像中选取一堆框并检查这些框中是否有任何一个包含任何目标。 RCNN 使用 selective search 从图像中提取这些框（这些框称为 regions）。

让我们首先了解什么是 selective search 以及它如何识别不同的 regions。基本上四个模式可以构成一个物体：不同的尺度、颜色、纹理和外壳。selective search 识别图像中的这些模式，并在此基础上提出各种regions。以下是selective search 工作原理的简要概述：

举个例子：

到目前为止，我们已经看到了 RCNN 如何实现目标检测。但是这种技术有其自身的局限性。由于以下步骤，训练 RCNN 模型既昂贵又缓慢：

所有这些过程结合起来使 RCNN 非常慢。对每张新图像进行预测大约需要 40-50 秒，这实质上使得模型在面对庞大的数据集时变得笨重且几乎无法构建。

好消息是——我们有另一种目标检测技术，它修复了我们在 RCNN 中看到的大部分问题。

我们还能做些什么来减少 RCNN 算法通常需要的计算时间？我们是否可以每张图像只运行一次并获取所有感兴趣的区域（包含某个目标的区域）。

RCNN 的作者 Ross Girshick 提出了这个想法，即每张图像只运行一次 CNN，然后找到一种方法在 2,000 个区域之间共享该计算。在 Fast RCNN 中，我们将输入图像提供给 CNN，后者反过来生成卷积特征图。使用这些地图，提取提议的区域。然后我们使用 RoI 池化层将所有提议的区域重塑为固定大小，以便可以将其馈入全连接网络。

让我们将其分解为简化概念的步骤：

因此，Fast RCNN 不是使用三个不同的模型（如 RCNN），而是使用单个模型从区域中提取特征，将它们分成不同的类，并同时返回识别类的边界框。

为了进一步分解，我将对每个步骤进行可视化。

这就是 Fast RCNN 如何解决 RCNN 的两个主要问题，1. 将每个图像的一个而不是 2,000 个区域传递给 ConvNet。2. 使用一个而不是三个不同的模型来提取特征、分类和生成边界框。

但即使是 Fast RCNN 也存在某些问题。它还使用 selective search 作为寻找感兴趣区域的建议方法，这是一个缓慢且耗时的过程。每张图像检测目标大约需要 2 秒，这与 RCNN 相比要好得多。但是当我们考虑大型现实生活数据集时，即使是 Fast RCNN 看起来也不那么快了。

Faster RCNN 是 Fast RCNN 的修改版本。它们之间的主要区别在于 Fast RCNN 使用 selective search 来生成感兴趣的区域，而 Faster RCNN 使用 Region Proposal Network ，又名 RPN。 RPN 将图像特征图作为输入并生成一组目标提议，每个提议的目标以分数作为输出。

Faster RCNN 方法通常遵循以下步骤：

让我简要解释一下这个区域提议网络（RPN）实际上是如何工作的。

首先，Faster RCNN 从 CNN 获取特征图并将它们传递给区域提议网络。 RPN 在这些特征图上使用一个滑动窗口，在每个窗口，它生成 k 个不同形状和大小的 Anchor 框：

Anchor 框是固定大小的边界框，它们放置在整个图像中，具有不同的形状和大小。对于每个 Anchor，RPN 预测两件事：

我们现在有不同形状和大小的边界框，它们被传递到 RoI 池化层。在 RPN 步骤之后，有可能存在没有分配给它们的类别提议。我们可以获取每个建议并对其进行裁剪，以便每个建议都包含一个目标。这就是 RoI 池化层所做的。它为每个锚点提取固定大小的特征图：

然后将这些特征图传递到具有 softmax 和线性回归层的全连接层。它最终对目标进行分类并预测已识别目标的边界框。

到目前为止，我们讨论的所有目标检测算法都使用区域来识别目标。网络不会一次性查看完整图像，而是依次关注图像的各个部分。这会造成两个并发症：

相似回答

大家正在搜