OCR生成的文本有时会出现噪点,例如以下内容:
如何将上述文本转换为更加规范的形式,例如:
一个想法是先将整个字符串连接起来(跳过单词边界的猜测),然后在其上运行文本分割算法,可能类似于此: http://norvig.com/ngrams/
虽然字母之间的间距用作强调并不罕见(可能是早期印刷机限制的原因),但对于检索任务来说并不理想。Diese grundsätzliche V e r b o r g e n h e i t Gottes, die sich n u r dem N a c h f o l g e r öffnet, ist m i t d e m Messiasgeheimnis gemeint
如何将上述文本转换为更加规范的形式,例如:
这能够高效地处理大量文本吗?Diese grundsätzliche Verborgenheit Gottes, die sich nur dem Nachfolger öffnet, ist mit dem Messiasgeheimnis gemeint
一个想法是先将整个字符串连接起来(跳过单词边界的猜测),然后在其上运行文本分割算法,可能类似于此: http://norvig.com/ngrams/