Tesseract OCR引擎的立方模式-训练Tesseract

6

您能为我解释一下Tesseract OCR引擎中的立方体模式和立方体数据文件是什么以及使用它们的优势是什么吗?

另外,我该如何训练Tesseract识别希腊语以获得更好的结果?

4个回答

6

3
在tesseract-ocr-extradocs项目维基上,有关于Cube引擎模式所需的各种训练文件的说明:

https://code.google.com/p/tesseract-ocr-extradocs/wiki/Cube

在那里,您可以找到有关如何创建训练所需文件的详细(但不完整)信息,其中还包括一些有关神经网络文件格式的信息,这可能会很有用:

https://code.google.com/p/tesseract-ocr-extradocs/wiki/nnFileFormat

立方体模式通常会使用神经网络而不是自适应分类器来提供更好的识别结果。
我从未自己创建过立方体训练文件,因此无法为您提供有关如何创建这些文件的更多详细信息。

2

对于Tesseract 4+(带有LSTM)

我不确定立方模式,但是使用--oem 1您可以启用新的LSTM引擎并利用以下解决方案:

  • 使用现有模型

    我建议使用在Tesseract GitHub存储库上提供的预训练模型。它们拥有各种语言(看起来也支持希腊语!)

  • 自行训练

    我自己没有尝试过这个,但GitHub上的相关Wiki看起来很不错。

tl-dr

  • git clone git@github.com:tesseract-ocr/tessdata.git
  • 选择所需的语言文件
  • 将其移动到项目的tessdata目录中

这不是原帖作者的回答。 - Andrew Ravus

0
据我所知,PaddleOCR似乎是一个更好的工具箱,用于训练OCR模型。当然,它提供的训练模型在大多数场景下表现良好。你可以试试看。 :)
快速入门:https://github.com/PaddlePaddle/PaddleOCR/blob/dygraph/doc/doc_en/quickstart_en.md 如何训练文本检测模型:https://github.com/PaddlePaddle/PaddleOCR/blob/dygraph/doc/doc_en/detection_en.md 如何训练文本识别模型:https://github.com/PaddlePaddle/PaddleOCR/blob/dygraph/doc/doc_en/recognition_en.md

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接