Tesseract无法识别不同颜色的文本

3
我正在尝试编写一个程序,使用tesseract和python从截屏中抓取文本。目前已经成功获取了一部分文本,但是一些浅色文本无法被tesseract识别。以下是我使用的示例图片:

enter image description here

我可以获取图片顶部的文本,但无法获取下面的3个选项。

这是我用来抓取文本的代码:

result = pytesseract.image_to_string(
            screen, config="load_system_dawg=0 load_freq_dawg=0")

        print("below is the total value scraped by the tesseract")
        print(result)

        # Split up newlines until we have our question and answers
        parts = result.split("\n\n")

        question = parts.pop(0).replace("\n", " ")
        q_terms = question.split(" ")
        q_terms = list(filter(lambda t: t not in stop, q_terms))
        q_terms = set(q_terms)

        parts = "\n".join(parts)
        parts = parts.split("\n")

        answers = list(filter(lambda p: len(p) > 0, parts))

当我有一个没有彩色背景的黑色纯文本时,我可以通过以下3种选项中的任意一种来填充answers数组,但在这种情况下不行。有没有什么方法可以解决这个问题?

1个回答

4

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接