Tesseract无法识别不同颜色的文本

Question

Tesseract无法识别不同颜色的文本

3

我正在尝试编写一个程序，使用tesseract和python从截屏中抓取文本。目前已经成功获取了一部分文本，但是一些浅色文本无法被tesseract识别。以下是我使用的示例图片：

我可以获取图片顶部的文本，但无法获取下面的3个选项。

这是我用来抓取文本的代码：

result = pytesseract.image_to_string(
            screen, config="load_system_dawg=0 load_freq_dawg=0")

        print("below is the total value scraped by the tesseract")
        print(result)

        # Split up newlines until we have our question and answers
        parts = result.split("\n\n")

        question = parts.pop(0).replace("\n", " ")
        q_terms = question.split(" ")
        q_terms = list(filter(lambda t: t not in stop, q_terms))
        q_terms = set(q_terms)

        parts = "\n".join(parts)
        parts = parts.split("\n")

        answers = list(filter(lambda p: len(p) > 0, parts))

当我有一个没有彩色背景的黑色纯文本时，我可以通过以下3种选项中的任意一种来填充answers数组，但在这种情况下不行。有没有什么方法可以解决这个问题？

- Drew

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Dmitrii Z. · Accepted Answer

您缺少二值化或阈值化步骤。

在您的情况下，您可以简单地在灰度图像上应用二进制阈值。

这是带有threshold = 177的结果图像。

在这里，您可以了解有关使用opencv python库进行阈值处理的更多信息