我正在阅读 Facebook 研究团队的论文https://research.fb.com/wp-content/uploads/2017/08/maskrcnn.pdf。
Mask RCNN 基于 Faster RCNN 检测器,但进行了一些改进,例如 FPN(特征金字塔网络)、ROI Align。相较于 ROI pooling,ROI Align 似乎更准确。但是,我不理解 FPN 和 Mask RCNN 中的掩码架构。事实上,FPN 可以在不同尺度下获得特征图,但从论文中的图像来看,我不明白他们是否只使用了 FPN 上的最后一个特征图。
所以,问题是:我们只使用RPN的最后一个特征图,然后使用一些卷积层来预测掩模(用于分割),还是我们也使用RPN的中间层?