OCR和区分2或3种字体

3

假设我有一张黑白文档图像,只使用了2或3种字体。其中之一用于标题,另一个是小字体(或者至少非常朴素)。例如,其中一个小文本可能是:

Fancy/Bolded/Italicized/Script font: The Best Soup In The World
Plain/small: Made with tap water, salt, and sugar.

Fancy/Bolded/Italicized/Script font: The Best Soup and 1/2 Sandwich In The World
Plain/small: Made with flour, tap water, salt, and sugar.

我不需要一个能够告诉我“Best Soup”使用了特定的花式字体(如斜体等)的大型OCR系统。我只需要一个能够告诉我“Best Soup”的格式与“tap water”有很大不同,而“Best Soup”和“Sandwich”可能使用相同的格式,“Sandwich”比“tap water”更大/花哨的系统。
如果相关的话,我会使用Tesseract来进行实际的OCR和边界框检测(http://www.mail-archive.com/tesseract-ocr@googlegroups.com/msg02157.html)。
是否有任何可以用于进行这种简单格式分类的东西?
编辑:
是否有任何东西可以做到这一点,而不会让我付出巨额代价?
1个回答

1

我不确定tesseract能否解决你所描述的任务,但我相信一个好的OCR引擎应该能够检测字体样式。例如,ABBYY OCR SDK不仅可以识别粗体/斜体字体样式,还可以定义适当的字体以用于输出。

根据你所描述的内容,我猜测你正在尝试确定文档样式层次结构,如标题级别等。ABBYY FineReader Engine提供了这个功能,你不需要参与基于字体大小和样式的文本目的例程。此外,它提供了最佳的OCR质量,并且可以免费试用。如果你计划开发商业软件,请考虑尝试一下。我在ABBYY工作,如果需要,我可以为你提供更多有关我们OCR SDK的信息。

最好的问候。


感谢您在悄悄推广公司的同时提供了有用的回答。 :)目前,我还没有决定是否会收费,所以我将继续考虑其他可能性。 - Zian Choy

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接