Tesseract OCR加载语言 - 日语

9

我刚刚安装了Tesseract OCR,在运行命令$ tesseract --list-langs之后,输出只显示了两种语言:engosd。我的问题是,我该如何加载另一种语言,特别是日语?


你能分享一下是怎么解决你的问题的吗?我也在处理类似的问题。 - Abrar
4个回答

5
我了解到,通过从https://github.com/tesseract-ocr/tessdata获取训练数据,并将其放置在与其他训练数据相同的目录中,即eng.traineddata,并通过传递语言标志-l LANG,tesseract应该能够读取您指定的语言,在下面的示例中,是日语:tesseract -l jpn sample-jpn.png output-jpn

3
这对我有用:
sudo apt-get install tesseract-ocr-jpn

希望这个链接可以帮到您。


将德语语言模型(deu.traineddata)复制到“tessdata”文件夹会导致“无法打开数据文件/ usr / share / tesseract-ocr / 4.00 / tessdata / deu.traineddata”的错误。 这种方法解决了我的问题。 - RedHand

2

1. pip install pytesseract

2. for windows install tesseract-ocr from 
https://digi.bib.uni-mannheim.de/tesseract
select all language options while installing

3. set the tesseract-ocr path under anaconda/lib/site-packages/pytesseract/pytesseract.py

tesseract_cmd = 'C:\\Program Files (x86)\\Tesseract-OCR\\tesseract.exe'

4. from pytesseract import image_to_string
print(image_to_string(test_file, 'jpn')) #for Japenese text extraction


0

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接