我需要分析一张既包含英文又包含日文的图片。当我运行默认设置的tesseract (-l eng
) 时,有些日文字被忽略了。但如果我使用日语设置(-l jpn
)运行tesseract,则会丢失一些英文字符(例如:Email)。
如何能够运行一个进程同时识别英文和日文字符呢?
我需要分析一张既包含英文又包含日文的图片。当我运行默认设置的tesseract (-l eng
) 时,有些日文字被忽略了。但如果我使用日语设置(-l jpn
)运行tesseract,则会丢失一些英文字符(例如:Email)。
如何能够运行一个进程同时识别英文和日文字符呢?
自从tesseract 3.02版本以来,可以在-l参数中指定多种语言。
-l lang 表示要使用的语言。如果没有指定,则默认为英语。可以指定多种语言,用加号进行分隔。 Tesseract使用3个字符的ISO 639-2语言代码。
例如:
tesseract myscan.png out -l deu+eng
试试这个:
custom_config = r'-l eng+jpn --psm 6'
txt = pytesseract.image_to_string(img, config=custom_config)
from langdetect import detect_langs
detect_langs(txt)
pip install langdetect