如何使用命令行在tesseract中获取逐字符置信度?

5
我可以通过命令行使用tesseract 4.0获得单词级别的置信度分数。我想知道是否有一种方法可以获取字符置信度。
要使用单词级别的置信度,请使用以下命令:
tesseract [Image name] outputbase --oem 1 -l eng --psm 8 tsv

我也有和上面一样的问题,如果你找到了答案,请分享给我。 - udya
1个回答

5

请在您的配置文件中设置 hocr_char_boxes to 1。或者,在命令行上,更新后的命令应为:

tesseract [Image name] outputbase --oem 1 -l eng --psm 8 -c hocr_char_boxes=1 hocr

请注意 hocr 输出选项,并查看该文件中的 _wconf,例如。
 <span class='ocrx_word' id='word_1_1' title='bbox 127 344 4618 6915; x_wconf 1'>

如果这个对你有用,请告诉我,否则我会删除这个回答。
来源:https://github.com/tesseract-ocr/tesseract/issues/1465#issuecomment-513139976

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接