OCR的词距算法

Question

4

我正在处理OCR输出，并在其中搜索特定的单词。

由于输出内容不干净，因此我寻找与我的输入相匹配的元素，其单词距离低于特定阈值。

然而，我觉得Levenshtein距离或汉明距离并不是最好的方法，因为OCR似乎总是犯同样的错误：I写成1，0写成O，Q写成O等等。这些“经典”错误似乎比“A替换成K”等更不重要。因此，这些距离并不关心字符外观的差异程度（低/高）。

是否有任何针对OCR特别制定的单词距离算法可以使用，更适合我的情况？还是应该根据字符的视觉差异经验性地实现自定义单词距离？

- zenbeni

如果你曾经阅读过Tesseract源代码，你会发现它特别处理了很多这些情况。 - Frames Catherine White

你是否在64位JVM上使用Tesseract OCR？ - marcAntoine

@manu 不，我使用ABBYY FineReader。 - zenbeni

然后你正在使用试用版。 - marcAntoine

@manu 不，这不是试用版。为什么问呢？付费版本中有一些我应该知道的隐藏内容吗？ - zenbeni

2个回答

1

如果您需要自定义字母不匹配的成本函数，可以查看 Needleman-Wunsch 算法（NW）。

- Kunukn

这是一篇不错的阅读材料。在第一次使用两个不同OCR输出的Needleman-Wunsch算法来查找分类名称，然后使用这些名称在所有文档中进行第二次遍历以查找这些困难词汇。它可以起作用。 - zenbeni

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- user1196549 · Accepted Answer

Levenshtein距离允许您为每个替换对指定不同的成本（http://en.wikipedia.org/wiki/Levenshtein_distance#Possible_modifications，第五项）。因此，您可以通过更多或更少地强调常见错误来根据自己的需求进行调整。