更快的RCNN：如何转换坐标

Question

更快的RCNN：如何转换坐标

machine-learningtensorflowcomputer-visiondeep-learning

3

我正在尝试理解和使用Faster R-CNN算法处理自己的数据。

我的问题是关于ROI坐标：我们作为标签拥有的，以及最终想要的，是输入图像中的ROI坐标。然而，如果我理解正确的话，锚框是在卷积特征映射中给出的，然后ROI回归相对于一个锚框给出ROI坐标（因此可以轻松地转换为卷积特征映射坐标中的坐标），然后Fast-RCNN部分使用卷积特征映射中的坐标进行ROI池化，并且本身（分类并）回归边界框坐标。

考虑到在原始图像和卷积特征之间发生了一些卷积和池化，可能存在步幅大于1的情况（下采样），我们如何将原始图像中的坐标与特征空间中的坐标相关联（双向）？

我们应该如何给出锚框大小：相对于输入图像大小还是相对于卷积特征映射？

Fast-RCNN是如何回归边界框的？（我猜测：相对于ROI提议，类似于相对于锚框提议的编码方式；但我不确定）

- gdelab

2个回答

0

当您在层上不使用激活函数时，结果将是原始数字。这些原始数字基本上与坐标（标签）直接相关。

使用softmax或relu等激活函数将给出概率值，从而导致分类解决方案，而不是回归。

- Edd

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- gdelab · Accepted Answer

看起来这实际上是一个实现问题，该方法本身并不能回答这个问题。

一种好的方法，Tensorflow Object Detection API 使用的方法是始终相对于层的输入大小给出坐标和 ROI 大小。也就是说，所有坐标和大小都是介于 0 和 1 之间的实数。锚框也是如此。

这很好地解决了下采样的问题，并允许轻松计算 ROI 坐标。