OCR的对已知字体的识别

16

我正在寻找可以使用字体进行参数化的OCR库,因为我总是知道所使用的字体,并且相信这样识别结果会更好。

有人知道吗?


你是在询问使用什么字体进行OCR,还是需要一个OCR库来识别已知的字体? - t0mm13b
5
我认为他明确表示他正在寻找一家图书馆。 - Matti Virkkunen
@Matti:好的...我不理解“使用字体参数化”的问题措辞... - t0mm13b
我也对这个感兴趣。有一种字体叫做OCR-A,我想在筛选扫描区域时识别它,同时滤掉其他可能存在的文本。 - EdwinW
3个回答

4
大多数OCR引擎都可以很好地处理这种情况。事实上,如果页面上只有一个字体需要识别,OCR引擎不会像其他情况那样混淆。根据我的经验,这很奇怪但很真实。
如果OCR引擎一开始就能读取您的字体,那么我建议您直接使用它,无需担心其他问题。有更好的选择可以提高识别率。
许多OCR引擎允许您设置一些识别参数以帮助提高识别率,例如固定宽度或比例、衬线或非衬线、机器或手写体。您还可以选择字符子集,例如仅大写或仅数字,以显著提高结果。即使您只有数字字符,0(零)字符也永远不会与“O”、“o”或“Ø”混淆。您会发现这些提示比选择要识别的确切字体类型的选项更有效。
其他引擎将允许您训练OCR引擎以处理新字体,在处理奇怪的字体时会有很大帮助。
如果你的图像质量很好,字体清晰且大小适中,那么我建议使用Google的Tesseract OCR和OCROpus,由Michael Mior推荐。 它是免费的,并且在处理清晰文本方面效果很好。 如果文本有一些难度,则肯定有更好的OCR引擎,例如ABBYY,Prime Recognition,Omnipage等,但它们需要付费。

3

看看OCRopus。它是开源的,由Google赞助 :) 我不确定它是否允许选择特定字体,但它似乎可以产生良好的结果。


0

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接