Detectron2 - 根据阈值提取区域特征用于目标检测

5
我正在尝试使用detectron2框架提取类别检测高于某个阈值的区域特征。稍后我将在我的流水线中使用这些特征(类似于:VilBert第3.1节训练ViLBERT)。到目前为止,我已经使用这个配置训练了一个Mask R-CNN,并在一些自定义数据上进行了微调。它表现得很好。我想做的是从我训练的模型中提取产生的边界框的特征。 编辑: 我看了关闭我的帖子的用户所写的内容,并试图加以改进。虽然读者需要了解我正在做什么的背景。如果您有任何想法,可以让问题更好,或者如果您对如何做我正在尝试的事情有一些见解,欢迎您的反馈!
我有一个问题:
  1. 为什么我只得到了一个预测实例,但是当我查看预测CLS分数时,有多个实例通过了阈值?

我相信这是生成ROI特征的正确方法:

images = ImageList.from_tensors(lst[:1], size_divisibility=32).to("cuda")  # preprocessed input tensor
#setup config
cfg = get_cfg()
cfg.merge_from_file(model_zoo.get_config_file("COCO-InstanceSegmentation/mask_rcnn_R_101_FPN_3x.yaml"))
cfg.MODEL.WEIGHTS = os.path.join(cfg.OUTPUT_DIR, "model_final.pth")
cfg.SOLVER.IMS_PER_BATCH = 1
cfg.MODEL.ROI_HEADS.NUM_CLASSES = 1  # only has one class (pnumonia)
#Just run these lines if you have the trained model im memory
cfg.MODEL.ROI_HEADS.SCORE_THRESH_TEST = 0.7   # set the testing threshold for this model
#build model
model = build_model(cfg)
DetectionCheckpointer(model).load("output/model_final.pth")
model.eval()#make sure its in eval mode

#run model
with torch.no_grad():
    features = model.backbone(images.tensor.float())
    proposals, _ = model.proposal_generator(images, features)
    instances = model.roi_heads._forward_box(features, proposals)

那么

pred_boxes = [x.pred_boxes for x in instances]
rois = model.roi_heads.box_pooler([features[f] for f in model.roi_heads.in_features], pred_boxes)

这是我的ROI功能。 我很困惑的是,我可以使用提议和带有类分数的提议框来获取此图像的前n个特征,而不是使用推断产生的边界框。很酷,所以我尝试了以下内容:
proposal_boxes = [x.proposal_boxes for x in proposals]
proposal_rois = model.roi_heads.box_pooler([features[f] for f in model.roi_heads.in_features], proposal_boxes)
#found here: https://detectron2.readthedocs.io/_modules/detectron2/modeling/roi_heads/roi_heads.html
box_features = model.roi_heads.box_head(proposal_rois)
predictions = model.roi_heads.box_predictor(box_features)
pred_instances, losses = model.roi_heads.box_predictor.inference(predictions, proposals)

我应该从哪里获取我的提案框功能及其中在我的预测对象中的cls。检查这个预测对象,我可以看到每个框的分数: 预测对象中的CLS分数
(tensor([[ 0.6308, -0.4926],
         [-1.6662,  1.5430],
         [-0.2080,  0.4856],
         ...,
         [-6.9698,  6.6695],
         [-5.6361,  5.4046],
         [-4.4918,  4.3899]], device='cuda:0', grad_fn=<AddmmBackward>),

在进行softmax并将这些分类分数放入数据框中,并设置阈值为0.6后,我得到了:
pred_df = pd.DataFrame(predictions[0].softmax(-1).tolist())
pred_df[pred_df[0] > 0.6]
    0           1
0   0.754618    0.245382
6   0.686816    0.313184
38  0.722627    0.277373

在我的预测对象中,我获得了相同的最高分数,但只有1个实例而不是2个(我设置了cfg.MODEL.ROI_HEADS.SCORE_THRESH_TEST = 0.7): 预测实例:
[Instances(num_instances=1, image_height=800, image_width=800, fields=[pred_boxes: Boxes(tensor([[548.5992, 341.7193, 756.9728, 438.0507]], device='cuda:0',
        grad_fn=<IndexBackward>)), scores: tensor([0.7546], device='cuda:0', grad_fn=<IndexBackward>), pred_classes: tensor([0], device='cuda:0')])]

预测结果中还包含张量:Nx4或Nx(Kx4)边界框回归增量。我不太清楚它们的作用和样子:

预测对象中的边界框回归增量

tensor([[ 0.2502,  0.2461, -0.4559, -0.3304],
        [-0.1359, -0.1563, -0.2821,  0.0557],
        [ 0.7802,  0.5719, -1.0790, -1.3001],
        ...,
        [-0.8594,  0.0632,  0.2024, -0.6000],
        [-0.2020, -3.3195,  0.6745,  0.5456],
        [-0.5542,  1.1727,  1.9679, -2.3912]], device='cuda:0',
       grad_fn=<AddmmBackward>)

有点奇怪的是,我的提议框预测框虽然不同但相似:

提议边界框

[Boxes(tensor([[532.9427, 335.8969, 761.2068, 438.8086],#this box vs the instance box
         [102.7041, 352.5067, 329.4510, 440.7240],
         [499.2719, 317.9529, 764.1958, 448.1386],
         ...,
         [ 25.2890, 379.3329,  28.6030, 429.9694],
         [127.1215, 392.6055, 328.6081, 489.0793],
         [164.5633, 275.6021, 295.0134, 462.7395]], device='cuda:0'))]

1
我不认为这个问题应该被删除。也许需要编辑,但仅仅因为我有多个问题并不意味着我应该关闭这个问题。确实,帖子中有很多文本,但这是为了提供上下文,否则我会得到“发布可重现的代码...”如果有任何建议,我愿意改进它。 - Kevin
1个回答

8
你已经接近成功了。查看roi_heads.box_predictor.inference(),你会发现它不仅仅是简单地对候选框的分数进行排序。首先,它应用边界框增量来重新调整建议框。 然后执行非最大抑制操作以删除不重叠的框(同时还应用其他超级设置,例如分数阈值)。 最后,根据它们的分数对前k个框进行排名。这可能解释了为什么您的方法产生相同的框分数但输出框的数量和其坐标不同。

回到你的原始问题,在一次推理中提取提议框的特征的方法如下:

image = cv2.imread('my_image.jpg')
height, width = image.shape[:2]
image = torch.as_tensor(image.astype("float32").transpose(2, 0, 1))
inputs = [{"image": image, "height": height, "width": width}]
with torch.no_grad():
    images = model.preprocess_image(inputs)  # don't forget to preprocess
    features = model.backbone(images.tensor)  # set of cnn features
    proposals, _ = model.proposal_generator(images, features, None)  # RPN

    features_ = [features[f] for f in model.roi_heads.box_in_features]
    box_features = model.roi_heads.box_pooler(features_, [x.proposal_boxes for x in proposals])
    box_features = model.roi_heads.box_head(box_features)  # features of all 1k candidates
    predictions = model.roi_heads.box_predictor(box_features)
    pred_instances, pred_inds = model.roi_heads.box_predictor.inference(predictions, proposals)
    pred_instances = model.roi_heads.forward_with_given_boxes(features, pred_instances)

    # output boxes, masks, scores, etc
    pred_instances = model._postprocess(pred_instances, inputs, images.image_sizes)  # scale box to orig size
    # features of the proposed boxes
    feats = box_features[pred_inds]

如果您想要可视化检测框的特征,请使用其中一种降维方法,例如PCA或更好的T-SNE(请参见此处)。您应该期望同一语义类别的框特征彼此靠近。 如果您只想可视化框坐标,请使用Detectron2的内置Visualizer类,参见此处 - Tu Bui
1
非常感谢你的帮助!我实际上已经想到了解决方法,它并不太难,我使用了技术1。我甚至利用这个技术开发了一种基于注意力的多模态分类模型,并设计了一款可视化工具,将文本和边框之间的注意力进行映射!再次感谢你,这直接进入了我的论文中! - Kevin
@TuBui 1000个提议框的特征形状为(1000,1024),其中每个特征都是形状为1024的张量。根据您在上面的聊天中建议的方法,使用检测到的掩码和框分数来表示热图区域和强度。请问这些特征代表什么,我们如何在特征图上绘制它们? - Shubham_geo
为了可视化目的,您不需要这些功能。只需使用分数来控制蒙版的透明度。透明度越高,预测的置信度就越低。这只是我对Kevin请求的建议。我个人很满意默认的可视化设置,其中置信度得分显示在每个检测框的顶部作为百分比。 - Tu Bui
@TuBui,你能回答一下这个问题吗?https://stackoverflow.com/q/73829914/5254777 - Preetom Saha Arko
显示剩余5条评论

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接