您能为我解释一下Tesseract OCR引擎中的立方体模式和立方体数据文件是什么以及使用它们的优势是什么吗?
另外,我该如何训练Tesseract识别希腊语以获得更好的结果?
对于那些仍然感兴趣的人。 在Tesseract的网站上,有不同文件的标准训练数据集。
https://code.google.com/p/tesseract-ocr/downloads/list?num=100&start=100
这里描述了培训程序(版本3.01)。https://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3
在Cube的情况下,与Tesseract相比有另一个引擎。它消耗更多资源,速度较慢,但结果更好。https://code.google.com/p/tesseract-ocr-extradocs/wiki/Cube
在那里,您可以找到有关如何创建训练所需文件的详细(但不完整)信息,其中还包括一些有关神经网络文件格式的信息,这可能会很有用:
https://code.google.com/p/tesseract-ocr-extradocs/wiki/nnFileFormat
立方体模式通常会使用神经网络而不是自适应分类器来提供更好的识别结果。我不确定立方模式,但是使用--oem 1
您可以启用新的LSTM引擎并利用以下解决方案:
我建议使用在Tesseract GitHub存储库上提供的预训练模型。它们拥有各种语言(看起来也支持希腊语!)
我自己没有尝试过这个,但GitHub上的相关Wiki看起来很不错。
git clone git@github.com:tesseract-ocr/tessdata.git