假设我有一张黑白文档图像,只使用了2或3种字体。其中之一用于标题,另一个是小字体(或者至少非常朴素)。例如,其中一个小文本可能是:
Fancy/Bolded/Italicized/Script font: The Best Soup In The World
Plain/small: Made with tap water, salt, and sugar.
Fancy/Bolded/Italicized/Script font: The Best Soup and 1/2 Sandwich In The World
Plain/small: Made with flour, tap water, salt, and sugar.
我不需要一个能够告诉我“Best Soup”使用了特定的花式字体(如斜体等)的大型OCR系统。我只需要一个能够告诉我“Best Soup”的格式与“tap water”有很大不同,而“Best Soup”和“Sandwich”可能使用相同的格式,“Sandwich”比“tap water”更大/花哨的系统。
如果相关的话,我会使用Tesseract来进行实际的OCR和边界框检测(http://www.mail-archive.com/tesseract-ocr@googlegroups.com/msg02157.html)。
是否有任何可以用于进行这种简单格式分类的东西?
编辑:
是否有任何东西可以做到这一点,而不会让我付出巨额代价?