Tesseract OCR加载语言 - 日语

Question

Tesseract OCR加载语言 - 日语

tesseract

9

我刚刚安装了Tesseract OCR，在运行命令$ tesseract --list-langs之后，输出只显示了两种语言：eng和osd。我的问题是，我该如何加载另一种语言，特别是日语？

- Freddy

你能分享一下是怎么解决你的问题的吗？我也在处理类似的问题。 - Abrar

4个回答

3

这对我有用：

sudo apt-get install tesseract-ocr-jpn

希望这个链接可以帮到您。

- Harald

将德语语言模型（deu.traineddata）复制到“tessdata”文件夹会导致“无法打开数据文件/ usr / share / tesseract-ocr / 4.00 / tessdata / deu.traineddata”的错误。这种方法解决了我的问题。 - RedHand

2

1. pip install pytesseract

2. for windows install tesseract-ocr from 
https://digi.bib.uni-mannheim.de/tesseract
select all language options while installing

3. set the tesseract-ocr path under anaconda/lib/site-packages/pytesseract/pytesseract.py

tesseract_cmd = 'C:\\Program Files (x86)\\Tesseract-OCR\\tesseract.exe'

4. from pytesseract import image_to_string
print(image_to_string(test_file, 'jpn')) #for Japenese text extraction

- Amir

0

在Mac上，如果你使用brew安装了tesseract，那么：

1. 前往https://github.com/tesseract-ocr/tessdata并下载https://github.com/tesseract-ocr/tessdata/blob/main/script/Japanese.traineddata。 2. 将文件放置在/opt/homebrew/Cellar/tesseract/share/tessdata/目录下。 3. 语言代码将保存在"Japanese"或者文件名对应的位置。

- Ariq Athallah

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Freddy · Accepted Answer

我了解到，通过从https://github.com/tesseract-ocr/tessdata获取训练数据，并将其放置在与其他训练数据相同的目录中，即eng.traineddata，并通过传递语言标志-l LANG，tesseract应该能够读取您指定的语言，在下面的示例中，是日语：tesseract -l jpn sample-jpn.png output-jpn。