使用OpenCV从图像中提取给定坐标的多边形

17

我有一组像下面这样的点:

     <data:polygon>
                            <data:point x="542" y="107"/>
                            <data:point x="562" y="102"/>
                            <data:point x="582" y="110"/>
                            <data:point x="598" y="142"/>
                            <data:point x="600" y="192"/>
                            <data:point x="601" y="225"/>
                            <data:point x="592" y="261"/>
                            <data:point x="572" y="263"/>
                            <data:point x="551" y="245"/>
                            <data:point x="526" y="220"/>
                            <data:point x="520" y="188"/>
                            <data:point x="518" y="152"/>
                            <data:point x="525" y="127"/>
                            <data:point x="542" y="107"/
 </data:polygon>

我想要在图像中绘制由这些点定义的多边形,然后提取它。如何使用Python的OpenCV实现?

1个回答

39
使用 cv2.fillConvexPoly 可以指定一个二维点数组和定义一个掩膜,该掩膜填充由这些点定义的形状为白色。需要注意的是,多边形中定义的点必须是凸多边形(因此称为fillConvexPoly)。
我们可以将其转换为布尔掩膜,然后使用它来索引图像以提取所需像素。下面的代码生成一个名为mask的数组,其中包含你想要从图像中保存的像素的布尔掩膜。此外,数组out将包含由多边形定义的所需提取子图像。请注意,图像初始化为完全暗,只有由多边形定义的像素才会被复制。
假设实际图像称为img,并假设你的xy点表示图像中的水平和垂直坐标,可以执行以下操作:
import numpy as np
import cv2

pts = np.array([[542, 107], [562, 102], [582, 110], [598, 142], [600, 192], [601, 225], [592, 261], [572, 263], [551, 245], [526, 220], [520, 188], [518, 152], [525, 127], [524, 107]], dtype=np.int32)

mask = np.zeros((img.shape[0], img.shape[1]))

cv2.fillConvexPoly(mask, pts, 1)
mask = mask > 0 # To convert to Boolean

out = np.zeros_like(img)
out[mask] = img[mask]

out应该全部为黑色,除了要复制的区域。如果您想显示此图像,可以执行以下操作:

out应该全部为黑色,除了要复制的区域。如果您想显示此图像,可以执行以下操作:

cv2.imshow('Extracted Image', out)
cv2.waitKey(0)
cv2.destroyAllWindows()

这将显示从多边形点中提取的图像,并等待您按下键。 当您完成查看图像时,只要显示窗口具有焦点,就可以按任意键。

如果您想将此图像保存到文件中,请执行以下操作:

cv2.imwrite('output.png', out)

这将把图像保存到名为 output.png 的文件中。我指定使用PNG格式是因为它是无损的。


作为一个简单的测试,让我们定义一个白色图像,大小为 300 x 700,这已经超出了您定义的最大坐标。让我们提取由该多边形定义的区域,并展示输出的效果。

img = 255*np.ones((300, 700, 3), dtype=np.uint8)

使用上面的测试图像,我们得到这张图片:

enter image description here

编辑

如果您想将提取出的图像翻译成居中的形式,并在边界框周围放置一个正方形,我可以建议的技巧是使用cv2.remap平移图像。完成后,使用cv2.rectangle绘制正方形。

cv2.remap的工作原理是对于输出的每个像素,您需要指定要访问源图像中哪个像素的空间坐标。因为您最终将输出移动到图像的中心,所以需要为目标图像中的每个xy位置添加偏移量才能获取源像素。

要找出正确的偏移量以移动图像,只需找出多边形的重心,将多边形平移使重心位于原点,然后重新平移使其位于图像中心即可。

使用我们上面定义的变量,您可以通过以下方式找到重心:

(meanx, meany) = pts.mean(axis=0)

找到重心后,将所有点减去此重心,然后添加适当的坐标以重新翻译到图像中心。 可以通过以下方式找到图像的中心:

(cenx, ceny) = (img.shape[1]/2, img.shape[0]/2)

将坐标转换为整数非常重要,因为像素坐标是这样的:

(meanx, meany, cenx, ceny) = np.floor([meanx, meany, cenx, ceny]).astype(np.int32)

现在要找出偏移量,按照之前讨论的方式进行:

(offsetx, offsety) = (-meanx + cenx, -meany + ceny)

现在,翻译您的图像。您需要为输出图像中的每个像素定义一个映射,在目标图像中的每个点(x,y)上,您需要提供从源图像采样的位置。我们计算的偏移将每个源像素转换到目标位置。因为我们正在做相反的操作,即对于每个目标像素,我们要找到从哪个源像素进行采样,所以我们必须减去偏移量,而不是加上。因此,首先通常定义(x,y)点的网格,然后减去偏移量。完成后,翻译图像:

(mx, my) = np.meshgrid(np.arange(img.shape[1]), np.arange(img.shape[0]))
ox = (mx - offsetx).astype(np.float32)
oy = (my - offsety).astype(np.float32)
out_translate = cv2.remap(out, ox, oy, cv2.INTER_LINEAR)
如果我们使用上面的示例显示out_translate,我们将获得以下内容: enter image description here 酷!现在是时候在这个图像上绘制矩形了。您需要找出矩形的左上角和右下角。这可以通过取多边形的左上角和右下角并添加偏移量来将这些点移动到图像中心来完成:
topleft = pts.min(axis=0) + [offsetx, offsety]
bottomright = pts.max(axis=0) + [offsetx, offsety]
cv2.rectangle(out_translate, tuple(topleft), tuple(bottomright), color=(255,0,0))

如果我们展示这张图片,我们得到:

enter image description here


上面的代码使用蓝色绘制一个围绕着中心图像的矩形。因此,从开始(提取像素区域)到结束(翻译并绘制矩形)的完整代码为:

# Import relevant modules
import numpy as np
import cv2

# Define points
pts = np.array([[542, 107], [562, 102], [582, 110], [598, 142], [600, 192], [601, 225], [592, 261], [572, 263], [551, 245], [526, 220], [520, 188], [518, 152], [525, 127], [524, 107]], dtype=np.int32)

### Define image here
img = 255*np.ones((300, 700, 3), dtype=np.uint8)

# Initialize mask
mask = np.zeros((img.shape[0], img.shape[1]))

# Create mask that defines the polygon of points
cv2.fillConvexPoly(mask, pts, 1)
mask = mask > 0 # To convert to Boolean

# Create output image (untranslated)
out = np.zeros_like(img)
out[mask] = img[mask]

# Find centroid of polygon
(meanx, meany) = pts.mean(axis=0)

# Find centre of image
(cenx, ceny) = (img.shape[1]/2, img.shape[0]/2)

# Make integer coordinates for each of the above
(meanx, meany, cenx, ceny) = np.floor([meanx, meany, cenx, ceny]).astype(np.int32)

# Calculate final offset to translate source pixels to centre of image
(offsetx, offsety) = (-meanx + cenx, -meany + ceny)

# Define remapping coordinates
(mx, my) = np.meshgrid(np.arange(img.shape[1]), np.arange(img.shape[0]))
ox = (mx - offsetx).astype(np.float32)
oy = (my - offsety).astype(np.float32)

# Translate the image to centre
out_translate = cv2.remap(out, ox, oy, cv2.INTER_LINEAR)

# Determine top left and bottom right of translated image
topleft = pts.min(axis=0) + [offsetx, offsety]
bottomright = pts.max(axis=0) + [offsetx, offsety]

# Draw rectangle
cv2.rectangle(out_translate, tuple(topleft), tuple(bottomright), color=(255,0,0))

# Show image, wait for user input, then save the image
cv2.imshow('Output Image', out_translate)
cv2.waitKey(0)
cv2.destroyAllWindows()
cv2.imwrite('output.png', out_translate)

1
非常好的回答!谢谢。 - SpiderRico
1
没问题!祝你好运! - rayryeng
1
啊,没问题。我一会儿回答你。我目前正在下班路上。 - rayryeng
1
抱歉,我会在几小时内修改这个问题。昨晚太忙了,没有时间处理。 - rayryeng
1
太好了!那个答案就像一个简短的教程一样。非常感谢你,Ray。 - SpiderRico
显示剩余10条评论

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接