Yolo或Faster RCNN中的anchor box或bounding boxes是什么?

11
我不知道 anchor box 和 bounding boxes,或者 proposal area 之间的区别。这些定义让我感到困惑。 我也不知道检测模型中这些框的含义,因为默认长度从未改变! 最后,我对 RCNN 系列和 Yolo 系列都输出预测框位置 (x,y,w,h) 或输出位置增量 (ground truth_x - predicted_x)/prediction_w 感到困惑。
2个回答

11

边界框(Bounding Boxes) 边界框是网络所预测的框。这些预测框会被覆盖在输入图像上,以便您可以直观地了解预测检测到的矩形的位置和形状。也就是说,它们是您可以在此 YouTube 视频中看到的矩形。

锚框(Anchor Boxes) 我们可以对边界框的形状做出一些假设。例如,如果我们想检测人类,就应该使用一些垂直的矩形框来搜索人物。它们就是锚框。在训练和预测之前,锚框作为一系列宽度和高度的一对数字列表被馈送到网络中:

anchors = [1.08,1.19,3.42,4.41,6.63,11.38,9.42,5.11,16.62,10.52]

以上列表定义了5个锚框。我们可以向网络馈送任意数量的锚框。

这些值是通过一些统计过程从训练数据中确定的。


我们应该定义多少对锚点?这些对的数量是否必须等于类别数?或者我们可以有更多的对吗? - MeiH
1
@Meisam 不需要与类的数量相等。即使是针对一个类的物体检测,如果您认为该类别的物体可能具有不同的形状或大小,您可以定义许多锚框。反之,如果所有类别的物体具有相似的形状和大小,则可以使用仅一个锚点对来训练模型。 - spl

4

锚框:预定义的边界框,用于选择并使用偏移量来确定检测到的物体的位置

边界框:相对于锚框预测出的检测到的物体的矩形

基本上,这个想法类似于对象检测模型中使用的标记点(例如 Snapchat 的相机)。在特定的图像区域为网络预先确定了一组节点,这些区域是根据自拍肖像的特征确定的,网络学习如何相对于输入到网络中的不同面孔进行节点偏移,在应用滤镜或蒙版之前,进行某些视觉刺激以真正激发用户。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接