如何查找Tesseract OCR配置文件中支持的参数

27

我想知道Tesseract OCR使用的配置文件接受哪些参数,如何编写配置文件等。

我在他们的网站上找不到任何关于此的文档。我该如何确定支持哪些参数以及它们的含义?


http://code.google.com/p/tesseract-ocr/wiki/ControlParams - rmtheis
示例配置文件:https://github.com/tesseract-ocr/tesseract/tree/master/tessdata/configs - Marek Grzenkowicz
3个回答

19

Tesseract v3.04现在提供命令行选项--print-parameters,因此您可以调用tesseract --print-parameters来获取678个可配置参数及其默认值和简短描述的列表:

Tesseract parameters:
editor_image_xpos   590 Editor image X Pos
editor_image_ypos   10  Editor image Y Pos
editor_image_menuheight 50  Add to image height for menu bar
editor_image_word_bb_color  7   Word bounding box colour
editor_image_blob_bb_color  4   Blob bounding box colour
editor_image_text_color 2   Correct text colour
...and many, many more

1
我无法弄清楚如何将修改后生成的文件重新输入Tesseract - 有什么想法吗:\ - jtlz2
@jtlz2 哦,好问题!特别是考虑到Tesseract现在已经比我发布答案时的版本(4.1.0)新了一个完整的主要版本,你应该将其重新发布为一个新问题。 - chbrown
类似这样吗?https://stackoverflow.com/questions/57794165/tesseract-differing-output-how-do-i-find-out-which-parameters-are-being-used - jtlz2
官方文档中是否有关于它们的任何文档? - Ahmad Anis

19

我在下面的链接中找到了这些指令。它们是关于编写配置文件以及放置位置的:

配置文件是简单的文本文件,没有BOM并带有Unix换行符(在Windows上,您可以使用一些高级文本编辑器,例如Notepad ++来实现此目的)。

如果您使用tesseract可执行文件,则只能通过此方式更改tesseract参数。

配置文件应位于tessdata / configs目录中。请在那里查看一些示例。

http://www.sk-spell.sk.cx/tesseract-ocr-parameters-in-302-version 中列出了所有变量及其描述的列表。请注意,这适用于Tesseract 3.02版本,其他版本可能会有所不同。

编辑:还添加了一个 pastebin链接,以防上面的链接失效。


10

这只是一个普通的文本文件,包含用空格分隔的Tesseract配置变量的键值对,每个变量占据一行;例如:

interactive_display_mode T
tessedit_display_outwords T

在Tesseract tessdata/configs文件夹下有几个标准配置文件,比如digits、hocr等。

1
我在哪里可以找到所有配置变量及其可能的取值列表? - sashoalm
2
请参考此帖子:https://dev59.com/-2cs5IYBdhLWcg3wJgpV - nguyenq
2
文件配置保存在哪里?我的意思是,我应该给它什么文件名?而且,“tesseract”命令如何特别使用那个配置文件?:( 我有点困惑。@nguyenq - gumuruh

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接