从图像中删除OCR文字（OpenCV，Python）

Question

从图像中删除OCR文字（OpenCV，Python）

7

所以，从我能开始的地方来看...

我正在使用OCR进行工作。这个脚本对我需要的内容非常有效。它可以准确地检测出单词，对我来说已经足够了。

这是结果：使用附加图像100％准确率。

from PIL import Image
import pyocr.builders
import os

os.putenv("TESSDATA_PREFIX", "C:\\Program Files (x86)\\Tesseract-OCR")

tools = pyocr.get_available_tools()
tool = tools[0]
langs = tool.get_available_languages()
lang = langs[0] #eng

file = "test.png"

txt = tool.image_to_string(Image.open(file), lang=lang, builder=pyocr.builders.TextBuilder())
print(txt + '\n')

'''
word = ['SHINE','ON','YOU','CRAZY','DIAMOND','SYD']

if word[2] in txt:
    print("## WORD IN LIST ##")
else:
    print("## NOT IN LIST ##")'''

现在的问题是：如何从图像中删除存在于输出OCR列表（在代码中命名为txt）中的单词？我的意思是，如果单词SHINE存在于控制台（和列表）中的输出中，我该如何在图像中删除它？或者，如果不删除，创建一个遮罩层，以便我可以隐藏它...

我认为ocr通过选择文本区域并在文本周围创建边界框来工作。在这种情况下，如何删除（甚至显示）此ROI /边界框？在pyocr文档中，有一些关于此函数（显示边界框）的提示，但我不知道如何使用它。

任何帮助/提示都将不胜感激。

谢谢

编辑：此代码向我显示每个字符的边界框

import csv
import cv2
from pytesseract import pytesseract as pt

pt.run_tesseract('test.png', 'output', lang=None, boxes=True, config="hocr")

# To read the coordinates
boxes = []
with open('output.box', 'rt') as f:
    reader = csv.reader(f, delimiter = ' ')
    for row in reader:
        if len(row) == 6:
            boxes.append(row)

# Draw the bounding box
img = cv2.imread('test.png')
h, w, _ = img.shape
for b in boxes:
    img = cv2.rectangle(img,(int(b[1]),h-int(b[2])),(int(b[3]),h-int(b[4])),(255,0,0),2)

cv2.imshow('output', img)
cv2.waitKey(0)

我该如何告诉它只显示第一个（完整的）单词？

- lucians

通过检查其边界框的距离（可能是 <= 您设置的固定阈值），确定哪个字符在单词中或检测序列中的哪个字符。 - tuan.tran

@Link 我运行了这段代码，出现了以下错误 \ TypeError: run_tesseract()收到了一个意外的关键字参数'boxes'。进程以退出码1结束 - 如何修复？ - Azam Rafique

你可以用白色填充框：cv2.rectangle(img,(int(b[1]),h-int(b[2])),(int(b[3]),h-int(b[4])),(255, 255,255),-1)。 - geledek

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- nathancy · Accepted Answer

这里是一个简单的方法：

将图像转换为灰度图
使用Otsu方法进行阈值分割
膨胀以连接轮廓
查找轮廓并提取每个单词的ROI（感兴趣区域）
执行OCR并删除单词

将图像转换为灰度图后，我们使用Otsu方法得到一个二值图像。

接下来，我们反转图像并膨胀，以形成每个单词的单一轮廓。

然后我们查找轮廓并提取每个单词的ROI。以下是检测到的ROI。

我们将每个ROI投入Pytesseract OCR中。如果OCR结果是我们想要删除的单词，则通过填充ROI的白色像素并在原始图像中替换该单词来"删除"该单词。

完整翻译已结束。

words_to_remove = ['on', 'you', 'crazy']

结果如下:

结果是

同样适用于

words_to_remove = ['on', 'you', 'shine', 'diamond']

结果如下：

这是结果：

最后使用

words_to_remove = ['on', 'you', 'crazy', 'diamond']

import cv2
import pytesseract

words_to_remove = ['on', 'you', 'crazy', 'diamond']
pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"

image = cv2.imread("1.png")
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
thresh = cv2.threshold(gray, 0, 255, cv2.THRESH_BINARY + cv2.THRESH_OTSU)[1]
kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (5,5))
inverted_thresh = 255 - thresh
dilate = cv2.dilate(inverted_thresh, kernel, iterations=4)

cnts = cv2.findContours(dilate, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)
cnts = cnts[0] if len(cnts) == 2 else cnts[1]
for c in cnts:
    x,y,w,h = cv2.boundingRect(c)
    ROI = thresh[y:y+h, x:x+w]
    data = pytesseract.image_to_string(ROI, lang='eng',config='--psm 6').lower()
    if data in words_to_remove:
        image[y:y+h, x:x+w] = [255,255,255]

cv2.imshow("thresh", thresh)
cv2.imshow("dilate", dilate)
cv2.imshow("image", image)
cv2.waitKey(0)