OCR的理想字体是什么？

Question

OCR的理想字体是什么？

37

有没有人有使用不同字体进行OCR的经验？我生成一个ID，然后尝试用tesseract进行扫描。目前我只是尝试使用不同的字体，但这似乎相当低效。我已经尝试了OCR*字体系列和其他各种字体，如Arial和Georgia。tesseract往往会对OCR*字体感到困惑。

是否有专门为tesseract设计的字体，或者任何可与其良好配合的系统字体？

- Chris Lloyd

请注意，在superuser上查看相关问题 https://superuser.com/a/1543382 - Martin Monperrus

我认为（从我的一点实践中）tesseract非常低效。 - U. Windl

TeX用户可以查看此解决方案tex.stackexchange.com/a/286401/185212。 - prash

9个回答

19

好的，在谷歌上搜索后，这是一个具体的OCR字体： OCR字体

看起来，这是1973年采用的标准。

- McWafflestix

1

链接已失效。您是指OCR-A吗？ - Arete

5

我发现Calibri对我来说效果最好。我们每天在自动化系统中使用OCR软件，并测试了许多字体（包括一些OCR特定的字体），发现Calibri始终表现最佳。

祝你好运。

- Chris

3

维基百科上的Calibri页面提到，在Calibri字体中，小写字母L（l）和大写字母I看起来“几乎无法区分”，这对于对非散文文本例如计算机代码、base64打印等进行OCR识别时会产生问题。 - Law29

5

我会使用银行支票底部路线号码所用的字体：

http://morovia.com/font/micr.asp

这种字体特意设计成机器可读的无歧义字体。

- benjismith

哎？为什么要踩我？甚至没有一句解释性评论吗？ - benjismith

3

MICR是为磁性技术设计的，以便于理想的阅读，而不是光学阅读。虽然它并不差，但对于OCR来说远非理想。 - Sparr

电影《神探飞机头》中有一些与MICR相关的有趣内容。 - erickson

1

它还需要支持字母数字字符。 - Chris Lloyd

3

Tesseract-OCR默认情况下没有针对MICR字体进行训练，尽管这可以完成... - sventechie

3

这实际上取决于所考虑的OCR引擎。

对于gocr，FreeMono是最好的选择，请参见gocr文档。

对于tesseract，DejaVu-Serif效果良好，请参见https://superuser.com/a/1543382/280936

对于abbyocr，verdana不错，请参见此比较

还可以参考这篇总结：https://www.monperrus.net/martin/perfect-ocr-digital-data

- Martin Monperrus

2

我一直都是用 times new roman 字体取得成功的。

- David

2

是的，罗马字体应该能产生良好的结果。确保图像在200到300dpi之间为灰度或二值化。但是，针对有限的领域（字母/单词）训练引擎可能会更好地适用于这种用例。 - sventechie

1

我最近在一个名为Laserfiche的ECM中进行了广泛的测试，该软件使用Nuance OmniPage，我发现等宽字体与动态间距字体相比表现较差。那些老式OCR字体的表现不如更“正常”的字体。特别是对于像12号字体大小的数字串。

奇怪的是，其他人使用Calibri取得了成功。在我的测试中，它的表现非常糟糕，经常将看起来相似的字母和数字混淆。最好的字体（在安装了Office的Windows计算机上）是Consolas、Verdana和Book Antiqua。所有这些都是动态衬线字体，字母和数字看起来很清晰。Consolas是冠军。

- Glen Murie

0

目前使用的是等宽字体。尝试了很多字体，但这对我来说是最准确的。

- Sam

1

"Monospace" 是什么字体？ - U. Windl

0

我最近进行了一个实验，研究了不同的OCR（使用Adobe Acrobat Pro）字体，以帮助我们处理Airgap代码，因为OCR在处理此类代码时通常效果很差。我发现，如果将代码/文本转换为十六进制，并使用大小为14的Book Antiqua字体（完整结果如下），几乎可以保证100%的成功率。当然会有错误（例如，“S” - “5”），但是可以通过使用脚本完全且轻松地进行纠正。运行脚本后，再转换回ASCII码。当然，如果你愿意承担纸张浪费的代价，你甚至可以进一步打印文件的位流。以下是字体比较图表。

- ShaneK

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Gawin · Accepted Answer

尝试了许多不同的字体和OCR引擎后，我发现使用Consolas可以获得最佳的结果。它是类似OCR-A的等宽字体，但更容易被人类阅读。Consolas包含在多个Microsoft产品中。

还有一种Inconsolata的开源字体，受到Consolas的影响。考虑到许可细节，Inconsolata是Consolas的良好替代品。

在我的测试中，Calibri字体中的数字和空格并不总是被正确识别。OCR-A会出现很多阅读错误。我没有尝试MIRC，因为大多数人很难阅读。

注意：tesseract在可靠之前需要大量的测试和微调。在我们的情况下，我们转换到了商业许可的OCR引擎（ABBYY），特别是由于可靠性非常重要，而且我们需要支持多种（欧洲）语言。

更新：2017年1月31日 - 由于潜在的版权问题，将“基于Consolas”更改为“受到Consolas的影响”。