这篇文章明确提到,在Faster RCNN中,分类和回归损失与RPN网络是相同的。但有人能否解释一下Mask Loss函数?以及如何使用FCN来改进?
这篇文章明确提到,在Faster RCNN中,分类和回归损失与RPN网络是相同的。但有人能否解释一下Mask Loss函数?以及如何使用FCN来改进?
FCN使用逐像素的softmax和多项式损失函数。这意味着,遮罩预测任务(对象的边界)和类别预测任务(被遮罩掉的对象是什么)是耦合的。
Mask-RCNN将这些任务解耦:现有的边界框预测(也称为定位任务)头部预测类别,就像faster-RCNN一样,而掩码分支为每个类别生成一个掩码,而不是在分类之间竞争(例如,如果您有21个类别,则掩码分支会预测21个掩码,而不是FCN的具有21个通道的单个掩码)。所使用的损失是逐像素sigmoid + 二进制损失。
总之,在Mask-RCNN中使用Sigmoid,而在FCN中使用Soft-max。
(请参见Mask RCNN论文的表2.b. - 消融部分).