为什么Faster RCNN的端到端训练只能得到近似结果？

Question

为什么Faster RCNN的端到端训练只能得到近似结果？

image-processingdeep-learningobject-detection

6

在 faster rcnn (https://arxiv.org/abs/1506.01497) 中，有两种训练网络的方式。一种是联合训练 rpn 和 fast rcnn；另一种是以端到端的方式同时训练 rpn 和 fast rcnn。然而，作者指出，在端到端训练中，结果只是联合训练的近似值。这个近似值的原因是这个解决方案忽略了对提议框坐标的导数，而这些提议框坐标也是网络响应，所以是近似的。然而，从网络定义（https://github.com/rbgirshick/py-faster-rcnn/blob/master/models/pascal_voc/VGG16/faster_rcnn_end2end/train.prototxt）来看，rpn 的边界框回归在每次训练迭代中都会更新，所以不会被忽略。那么，为什么它忽略了提议框坐标的导数？这意味着什么？

- alec.tu

我也很好奇这一点，你找到解决方案了吗？ - Collin Zhang

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Collin Zhang · Accepted Answer

幻灯片各种速度的训练R-CNNs在第40-45页详细介绍了这个问题。简而言之，这是因为对ROI层的损失函数导数未定义，所以使用替代梯度，在这种情况下，该导数是未定义的。

P.S.

ICCV 2015教程链接

Github README页面引导我到幻灯片