OCR的词距算法

4

我正在处理OCR输出,并在其中搜索特定的单词。

由于输出内容不干净,因此我寻找与我的输入相匹配的元素,其单词距离低于特定阈值。

然而,我觉得Levenshtein距离或汉明距离并不是最好的方法,因为OCR似乎总是犯同样的错误:I写成1,0写成O,Q写成O等等。这些“经典”错误似乎比“A替换成K”等更不重要。因此,这些距离并不关心字符外观的差异程度(低/高)。

是否有任何针对OCR特别制定的单词距离算法可以使用,更适合我的情况?还是应该根据字符的视觉差异经验性地实现自定义单词距离?


如果你曾经阅读过Tesseract源代码,你会发现它特别处理了很多这些情况。 - Frames Catherine White
你是否在64位JVM上使用Tesseract OCR? - marcAntoine
@manu 不,我使用ABBYY FineReader。 - zenbeni
然后你正在使用试用版。 - marcAntoine
@manu 不,这不是试用版。为什么问呢?付费版本中有一些我应该知道的隐藏内容吗? - zenbeni
2个回答

2

我将尝试使用每个Levenshtein操作之间的成本,该成本取决于字符值,在0到1之间为两个字符串计算距离。这应该给我一个双精度距离值。 - zenbeni
你解决了这个问题吗?如果没有,请告诉我。我在 ABBYY 工作,随时可以帮助你。 - Vitalik Kudryavtsev

1

这是一篇不错的阅读材料。在第一次使用两个不同OCR输出的Needleman-Wunsch算法来查找分类名称,然后使用这些名称在所有文档中进行第二次遍历以查找这些困难词汇。它可以起作用。 - zenbeni

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接