OCR和区分2或3种字体

Question

OCR和区分2或3种字体

3

假设我有一张黑白文档图像，只使用了2或3种字体。其中之一用于标题，另一个是小字体（或者至少非常朴素）。例如，其中一个小文本可能是：

Fancy/Bolded/Italicized/Script font: The Best Soup In The World
Plain/small: Made with tap water, salt, and sugar.

Fancy/Bolded/Italicized/Script font: The Best Soup and 1/2 Sandwich In The World
Plain/small: Made with flour, tap water, salt, and sugar.

我不需要一个能够告诉我“Best Soup”使用了特定的花式字体（如斜体等）的大型OCR系统。我只需要一个能够告诉我“Best Soup”的格式与“tap water”有很大不同，而“Best Soup”和“Sandwich”可能使用相同的格式，“Sandwich”比“tap water”更大/花哨的系统。

如果相关的话，我会使用Tesseract来进行实际的OCR和边界框检测（http://www.mail-archive.com/tesseract-ocr@googlegroups.com/msg02157.html）。

是否有任何可以用于进行这种简单格式分类的东西？

编辑：

是否有任何东西可以做到这一点，而不会让我付出巨额代价？

- Zian Choy

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Nikolay · Accepted Answer

我不确定tesseract能否解决你所描述的任务，但我相信一个好的OCR引擎应该能够检测字体样式。例如，ABBYY OCR SDK不仅可以识别粗体/斜体字体样式，还可以定义适当的字体以用于输出。

根据你所描述的内容，我猜测你正在尝试确定文档样式层次结构，如标题级别等。ABBYY FineReader Engine提供了这个功能，你不需要参与基于字体大小和样式的文本目的例程。此外，它提供了最佳的OCR质量，并且可以免费试用。如果你计划开发商业软件，请考虑尝试一下。我在ABBYY工作，如果需要，我可以为你提供更多有关我们OCR SDK的信息。

最好的问候。