我正在尝试理解和使用Faster R-CNN算法处理自己的数据。
我的问题是关于ROI坐标:我们作为标签拥有的,以及最终想要的,是输入图像中的ROI坐标。然而,如果我理解正确的话,锚框是在卷积特征映射中给出的,然后ROI回归相对于一个锚框给出ROI坐标(因此可以轻松地转换为卷积特征映射坐标中的坐标),然后Fast-RCNN部分使用卷积特征映射中的坐标进行ROI池化,并且本身(分类并)回归边界框坐标。
考虑到在原始图像和卷积特征之间发生了一些卷积和池化,可能存在步幅大于1的情况(下采样),我们如何将原始图像中的坐标与特征空间中的坐标相关联(双向)?
我们应该如何给出锚框大小:相对于输入图像大小还是相对于卷积特征映射?
Fast-RCNN是如何回归边界框的?(我猜测:相对于ROI提议,类似于相对于锚框提议的编码方式;但我不确定)
我的问题是关于ROI坐标:我们作为标签拥有的,以及最终想要的,是输入图像中的ROI坐标。然而,如果我理解正确的话,锚框是在卷积特征映射中给出的,然后ROI回归相对于一个锚框给出ROI坐标(因此可以轻松地转换为卷积特征映射坐标中的坐标),然后Fast-RCNN部分使用卷积特征映射中的坐标进行ROI池化,并且本身(分类并)回归边界框坐标。
考虑到在原始图像和卷积特征之间发生了一些卷积和池化,可能存在步幅大于1的情况(下采样),我们如何将原始图像中的坐标与特征空间中的坐标相关联(双向)?
我们应该如何给出锚框大小:相对于输入图像大小还是相对于卷积特征映射?
Fast-RCNN是如何回归边界框的?(我猜测:相对于ROI提议,类似于相对于锚框提议的编码方式;但我不确定)