我不知道 anchor box 和 bounding boxes,或者 proposal area 之间的区别。这些定义让我感到困惑。
我也不知道检测模型中这些框的含义,因为默认长度从未改变!
最后,我对 RCNN 系列和 Yolo 系列都输出预测框位置 (x,y,w,h) 或输出位置增量 (ground truth_x - predicted_x)/prediction_w 感到困惑。
边界框(Bounding Boxes) 边界框是网络所预测的框。这些预测框会被覆盖在输入图像上,以便您可以直观地了解预测检测到的矩形的位置和形状。也就是说,它们是您可以在此 YouTube 视频中看到的矩形。
锚框(Anchor Boxes) 我们可以对边界框的形状做出一些假设。例如,如果我们想检测人类,就应该使用一些垂直的矩形框来搜索人物。它们就是锚框。在训练和预测之前,锚框作为一系列宽度和高度的一对数字列表被馈送到网络中:
anchors = [1.08,1.19,3.42,4.41,6.63,11.38,9.42,5.11,16.62,10.52]
以上列表定义了5个锚框。我们可以向网络馈送任意数量的锚框。
这些值是通过一些统计过程从训练数据中确定的。
锚框:预定义的边界框,用于选择并使用偏移量来确定检测到的物体的位置
边界框:相对于锚框预测出的检测到的物体的矩形
基本上,这个想法类似于对象检测模型中使用的标记点(例如 Snapchat 的相机)。在特定的图像区域为网络预先确定了一组节点,这些区域是根据自拍肖像的特征确定的,网络学习如何相对于输入到网络中的不同面孔进行节点偏移,在应用滤镜或蒙版之前,进行某些视觉刺激以真正激发用户。