更快的RCNN:如何转换坐标

3
我正在尝试理解和使用Faster R-CNN算法处理自己的数据。
我的问题是关于ROI坐标:我们作为标签拥有的,以及最终想要的,是输入图像中的ROI坐标。然而,如果我理解正确的话,锚框是在卷积特征映射中给出的,然后ROI回归相对于一个锚框给出ROI坐标(因此可以轻松地转换为卷积特征映射坐标中的坐标),然后Fast-RCNN部分使用卷积特征映射中的坐标进行ROI池化,并且本身(分类并)回归边界框坐标。
考虑到在原始图像和卷积特征之间发生了一些卷积和池化,可能存在步幅大于1的情况(下采样),我们如何将原始图像中的坐标与特征空间中的坐标相关联(双向)?
我们应该如何给出锚框大小:相对于输入图像大小还是相对于卷积特征映射?
Fast-RCNN是如何回归边界框的?(我猜测:相对于ROI提议,类似于相对于锚框提议的编码方式;但我不确定)
2个回答

1
看起来这实际上是一个实现问题,该方法本身并不能回答这个问题。
一种好的方法,Tensorflow Object Detection API 使用的方法是始终相对于层的输入大小给出坐标和 ROI 大小。也就是说,所有坐标和大小都是介于 0 和 1 之间的实数。锚框也是如此。
这很好地解决了下采样的问题,并允许轻松计算 ROI 坐标。

0

当您在层上不使用激活函数时,结果将是原始数字。这些原始数字基本上与坐标(标签)直接相关。

使用softmax或relu等激活函数将给出概率值,从而导致分类解决方案,而不是回归。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接