更新:我终于通过使用等宽字体(Courier New)的Tesseract进行训练并使用完全相同的大小截屏,达到了100%的准确性。希望这能帮助未来的某人 :)
由于这是谷歌上关于 tesseract recognize screenshot
的第一个结果,让我进行一些“尸变术”,并提供一个简单得多的解决方案。
Tesseract 期望图像具有大约300 dpi或更高的分辨率,而 Windows 的标准 dpi 是96。这意味着您需要将图像缩放到300%。之后,结果会显著提高。
100%
结果: 你会推荐哪个工具来识别截屏中的所有字符 ?
200%
结果: 你会推荐哪个工具来识别屏幕截图中的所有字符?
300%
结果: 你会推荐哪个工具来识别屏幕截图中的所有字符?
超过300%的任何缩放比例效果都一样。
tessedit_char_whitelist 0123456789-.()qwertyuiopasdfghjklzxcvbnmQWERTYUIOPASDFGHJKLZXCVBNM
)。 - Joshua我知道你已经解决了你的问题,但是如果这能帮助到其他人:在处理截图时,我发现OCR引擎对以下两个问题比较敏感:(1)图像文件头中分辨率设置不正确,以及(2)透明度问题(看起来像白色背景实际上被标记为透明)。由于某种原因,这些问题往往经常出现在截图图像中。
此外,除了Tesseract之外,另一个可能性是尝试基于ABBYY OCR引擎的http://www.wisetrend.com/wisetrend_ocr_cloud.shtml API。(优点是没有安装/配置等需要,只需进行HTTP POST即可尝试它是否适用于您的图像)。免责声明:WiseTrend是我们公司的客户。
如果OCR在如此高质量的输入上给出如此糟糕的结果,我会感到惊讶。也许你想做的是选择一个有锐利边缘、没有反锯齿、字体大小更大的字体。
另外,如果可以接受的话,可以尝试一下这个SO问题中提供的OCR字体:
这应该会给你最好的可能结果 - 如果这不能达到100%,那我就不知道还有什么能做到了...
除了Tesseract之外,我不知道你尝试过什么,但如果你没有尝试过其他的,那么尝试一些其他的可能是值得的。这些似乎是最近更新的(Tesseract是一年前更新的):
还有一些在线版本,例如:
您可以使用此链接来测试示例文档。
看起来你可能需要商业授权才能得到你想要的。
希望这可以帮到你。
你可以使用Abby Fine Reader 12.0从PDF或屏幕截图中提取文本,并直接将它们保存为所需的文件格式。
了解更多信息:Abby Fine Reader 15 - 免费试用
您是否有更改操作系统级别文本抗锯齿的选项?尝试调整这些设置(甚至尝试关闭它)可能会使现有OCR获得更好的结果。