Tesseract的自定义词典

Question

Tesseract的自定义词典

androiddictionaryocrtesseract

14

我目前正在使用Tesseract OCR在Android上开发一个项目。希望通过添加词典来微调用户获取的结果。根据 tesseract OCR wiki 的说明，最好的方法是：

用与之相同格式的UTF8文本文件替换tessdata/eng.user-words中的单词列表，每行一个单词。

然而，在tessdata文件夹中没有eng.user-words文件。我猜想如果我只是创建一个包含我的字典的文本文件，它将永远不会被使用……

是否有人有类似的经历并知道该怎么做？

- TomSelleck

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- roocell · Accepted Answer

如果您正在使用的是 tesseract 3（我认为是这样的），那么您需要重新构建eng.trainddata文件。我打算完全替换单词 DAWG 文件以尝试获得更好的结果（即 - 我检测到的单词总是相同的）。在编译tesseract时，您需要在训练目录中包含combine_tessdata和wordlist2dawg可执行文件。按照以下步骤操作：

解压所有内容（我这样做只是为了备份我的 eng.word-dawg，您稍后还需要 unicharset）

./combine_tessdata -u eng.traineddata
创建您的单词列表文本文件（wordlistfile）
创建 eng.word-dawg

./wordlist2dawg wordlistfile eng.word-dawg traineddat_backup/.unicharset
替换单词 DAWG 文件

./combine_tessdata -o eng.traineddata eng.word-dawg

完成。