OCR的理想字体是什么?

37

有没有人有使用不同字体进行OCR的经验?我生成一个ID,然后尝试用tesseract进行扫描。目前我只是尝试使用不同的字体,但这似乎相当低效。我已经尝试了OCR*字体系列和其他各种字体,如Arial和Georgia。tesseract往往会对OCR*字体感到困惑。

是否有专门为tesseract设计的字体,或者任何可与其良好配合的系统字体?


请注意,在superuser上查看相关问题 https://superuser.com/a/1543382 - Martin Monperrus
我认为(从我的一点实践中)tesseract非常低效。 - U. Windl
TeX用户可以查看此解决方案tex.stackexchange.com/a/286401/185212 - prash
9个回答

20

尝试了许多不同的字体和OCR引擎后,我发现使用Consolas可以获得最佳的结果。它是类似OCR-A的等宽字体,但更容易被人类阅读。Consolas包含在多个Microsoft产品中。

还有一种Inconsolata的开源字体,受到Consolas的影响。考虑到许可细节,Inconsolata是Consolas的良好替代品。

在我的测试中,Calibri字体中的数字和空格并不总是被正确识别。OCR-A会出现很多阅读错误。我没有尝试MIRC,因为大多数人很难阅读。

注意:tesseract在可靠之前需要大量的测试和微调。在我们的情况下,我们转换到了商业许可的OCR引擎(ABBYY),特别是由于可靠性非常重要,而且我们需要支持多种(欧洲)语言。

更新:2017年1月31日 - 由于潜在的版权问题,将“基于Consolas”更改为“受到Consolas的影响”。


Abbyy与之前的Tesseract版本相比如何?我正在考虑切换到商业版的利弊。 - Don Cheadle
在2011年,ABBYY的工作时间达到了99%。但是如果现在有更具吸引力的替代品出现,我也不会感到惊讶。 - Gawin
2
Inconsolata 明显不是基于 Consolas 的。如果是的话,那么它将是 Consolas 的衍生作品,不能在自由许可证下发布。维基百科页面使用了“受到影响”的词语,在这种情况下更好。我指出这一点是因为理解版权很困难,不使用错误的术语并避免造成更多混乱是有用的。 - josch
@josch 在2011年撰写本文时,维基百科文章中提到“受启发”(请参阅维基百科历史记录),并且一次采访提到了“基于”。但是出于版权目的,我理解“受影响”可能更合适,我会更新答案。 - Gawin

19

好的,在谷歌上搜索后,这是一个具体的OCR字体: OCR字体

看起来,这是1973年采用的标准。


1
链接已失效。您是指OCR-A吗? - Arete

5

我发现Calibri对我来说效果最好。我们每天在自动化系统中使用OCR软件,并测试了许多字体(包括一些OCR特定的字体),发现Calibri始终表现最佳。

祝你好运。


3
维基百科上的Calibri页面提到,在Calibri字体中,小写字母L(l)和大写字母I看起来“几乎无法区分”,这对于对非散文文本例如计算机代码、base64打印等进行OCR识别时会产生问题。 - Law29

5

哎?为什么要踩我?甚至没有一句解释性评论吗? - benjismith
3
MICR是为磁性技术设计的,以便于理想的阅读,而不是光学阅读。虽然它并不差,但对于OCR来说远非理想。 - Sparr
电影《神探飞机头》中有一些与MICR相关的有趣内容。 - erickson
1
它还需要支持字母数字字符。 - Chris Lloyd
3
Tesseract-OCR默认情况下没有针对MICR字体进行训练,尽管这可以完成... - sventechie

3

2

我一直都是用 times new roman 字体取得成功的。


2
是的,罗马字体应该能产生良好的结果。确保图像在200到300dpi之间为灰度或二值化。但是,针对有限的领域(字母/单词)训练引擎可能会更好地适用于这种用例。 - sventechie

1
我最近在一个名为Laserfiche的ECM中进行了广泛的测试,该软件使用Nuance OmniPage,我发现等宽字体与动态间距字体相比表现较差。那些老式OCR字体的表现不如更“正常”的字体。特别是对于像12号字体大小的数字串。

奇怪的是,其他人使用Calibri取得了成功。在我的测试中,它的表现非常糟糕,经常将看起来相似的字母和数字混淆。最好的字体(在安装了Office的Windows计算机上)是Consolas、Verdana和Book Antiqua。所有这些都是动态衬线字体,字母和数字看起来很清晰。Consolas是冠军。


0

目前使用的是等宽字体。尝试了很多字体,但这对我来说是最准确的。


1
"Monospace" 是什么字体? - U. Windl

0
我最近进行了一个实验,研究了不同的OCR(使用Adobe Acrobat Pro)字体,以帮助我们处理Airgap代码,因为OCR在处理此类代码时通常效果很差。我发现,如果将代码/文本转换为十六进制,并使用大小为14的Book Antiqua字体(完整结果如下),几乎可以保证100%的成功率。当然会有错误(例如,“S” - “5”),但是可以通过使用脚本完全且轻松地进行纠正。运行脚本后,再转换回ASCII码。当然,如果你愿意承担纸张浪费的代价,你甚至可以进一步打印文件的位流。以下是字体比较图表。

enter image description here


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接