我正在尝试编写一个程序,使用tesseract和python从截屏中抓取文本。目前已经成功获取了一部分文本,但是一些浅色文本无法被tesseract识别。以下是我使用的示例图片:
我可以获取图片顶部的文本,但无法获取下面的3个选项。
这是我用来抓取文本的代码:
result = pytesseract.image_to_string(
screen, config="load_system_dawg=0 load_freq_dawg=0")
print("below is the total value scraped by the tesseract")
print(result)
# Split up newlines until we have our question and answers
parts = result.split("\n\n")
question = parts.pop(0).replace("\n", " ")
q_terms = question.split(" ")
q_terms = list(filter(lambda t: t not in stop, q_terms))
q_terms = set(q_terms)
parts = "\n".join(parts)
parts = parts.split("\n")
answers = list(filter(lambda p: len(p) > 0, parts))
当我有一个没有彩色背景的黑色纯文本时,我可以通过以下3种选项中的任意一种来填充answers
数组,但在这种情况下不行。有没有什么方法可以解决这个问题?