我正在努力让林肯字体在Tesseract中生效,即使经过了非常复杂的训练过程,结果也很糟糕。
这就是字体的样子,所以确实有点棘手:
我为训练图片创建了一个框文件,并且它正常工作。我使用框文件编辑器验证了它的正确性。
我使用这个框文件/tif文件创建了训练数据。我也同样地对Tesseract提供的30多个其他示例图像/字体进行了操作。
我创建了unicharset文件。
我创建了font_properties文件。该网站没有关于何时应该使用fraktur的指导。因此,我尝试了这种方式(Lincoln上开启fraktur):
最后,我尝试了使用和不使用字典文件。当我使用字典文件时,它们来自于我的搜索引擎Sphinx的单词映射表,其中包含约15K个常见单词和约20K个不常见单词。
在所有情况下,当我尝试OCR 此文件(3MB) 的前几行时,质量都很差。与其得到:
我得到:
为什么?
这就是字体的样子,所以确实有点棘手:
我为训练图片创建了一个框文件,并且它正常工作。我使用框文件编辑器验证了它的正确性。
我使用这个框文件/tif文件创建了训练数据。我也同样地对Tesseract提供的30多个其他示例图像/字体进行了操作。
我创建了unicharset文件。
我创建了font_properties文件。该网站没有关于何时应该使用fraktur的指导。因此,我尝试了这种方式(Lincoln上开启fraktur):
eng.lincoln.box 0 0 0 0 1
而这样(去除黑体):
eng.lincoln.box 0 0 0 0 0
最后,我尝试了使用和不使用字典文件。当我使用字典文件时,它们来自于我的搜索引擎Sphinx的单词映射表,其中包含约15K个常见单词和约20K个不常见单词。
在所有情况下,当我尝试OCR 此文件(3MB) 的前几行时,质量都很差。与其得到:
United States Court of Appeals
for the Federal Circuit
我得到:
OniteiJ %tates C0urt of QppeaIs
for the jfeI1eraICircuit
为什么?