我正在数字化一大批扫描文件,使用Tesseract 3作为OCR引擎。它的输出质量一般,经常会在实际文本前后产生垃圾字符和拼写错误。
对于前一个问题,似乎有确定哪些文本是实际文本以及哪些不是的策略(其中很多文本是人名等内容),因此我正在寻找除了在字典中查找单词之外的其他解决方案。
对于拼写问题,大多数错误都源自几个字母的误分类(例如将 l
、1
和 I
相互替换),因此应该存在猜测拼写错误的单词(因为英语中没有太多单词中间有“1”的情况)以及猜测适当修正的方法。
在这个领域中,最佳实践是什么?是否有可用于此类任务的免费/开源算法实现?Google搜索结果有很多论文,但并没有太多具体信息。如果没有可用的实现,那么哪些论文是一个好的起点?