检测Tesseract OCR Java实现中的大字体和小字体大小

3

能否使用Tesseract OCR对图片进行OCR,并识别图片中不同字体大小?如果可以,我是否需要使用任何其他第三方库或可以使用纯Java。例如,我想通过使用字体大小来检测报纸的标题和内容。

如有任何帮助与建议,请赐教。

2个回答

1
你可以使用ResultIterator.WordFontAttributes API方法(Tess4J中使用Java的示例)来检索识别文本的字体信息,包括字体名称和大小。

0
Tesseract的hOCR输出包括行和单词的边界框,可用于确定大小,并且可以通过打开“hocr_font_info”配置变量来配置以在输出中包含字体的点大小。

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接