我想要移除屏幕截图中包围文本的矩形等元素,以便进行光学字符识别并准确提取文本。
背景:
我这样做是为了从旧应用程序中提取数据以供其他应用程序使用。由于相关文件采用封闭的专有二进制格式,因此这是获取数据的唯一方式。
我将使用AutoItScript驱动应用程序显示其UI中的数据,然后对此进行屏幕截图,并将其馈送给tesseract。
我已经在自动化UI方面取得了一些成功,并且已经能够使用tesseract从位图中获取纯ASCII文本。
有几篇AutoItScripr论坛文章讨论了它与tesseract / OCR的使用,但没有针对我的问题。
需要做什么:
有一些细长的、1像素宽的矩形紧密地包围着一些文本,当输入到Tesseract时,例如对于矩形的竖直线,它会将其视为I。
你有什么想法可以去除这些矩形或最佳实践吗?
我想知道是否有一种通用的基于命令行的工具集来覆盖矩形,例如在.png文件中。然后我可以将.png通过此工具处理,再将其传递给Tesseract。
我使用的Tesseract版本/设置的详细信息如下:
请前往此处:http://code.google.com/p/tesseract-ocr/downloads/list - 要使Tesseract能够运行并将您的位图文本识别为ASCII文本,请使用tesseract-2.00.eng.tar.gz(撰写时的当前版本为:“Tesseract的英语语言数据(2.00及更高版本)2007年7月989 KB 84845”)。
我已经查看了Stack Overflow上相关的问题。
背景:
我这样做是为了从旧应用程序中提取数据以供其他应用程序使用。由于相关文件采用封闭的专有二进制格式,因此这是获取数据的唯一方式。
我将使用AutoItScript驱动应用程序显示其UI中的数据,然后对此进行屏幕截图,并将其馈送给tesseract。
我已经在自动化UI方面取得了一些成功,并且已经能够使用tesseract从位图中获取纯ASCII文本。
有几篇AutoItScripr论坛文章讨论了它与tesseract / OCR的使用,但没有针对我的问题。
需要做什么:
有一些细长的、1像素宽的矩形紧密地包围着一些文本,当输入到Tesseract时,例如对于矩形的竖直线,它会将其视为I。
你有什么想法可以去除这些矩形或最佳实践吗?
我想知道是否有一种通用的基于命令行的工具集来覆盖矩形,例如在.png文件中。然后我可以将.png通过此工具处理,再将其传递给Tesseract。
我使用的Tesseract版本/设置的详细信息如下:
请前往此处:http://code.google.com/p/tesseract-ocr/downloads/list - 要使Tesseract能够运行并将您的位图文本识别为ASCII文本,请使用tesseract-2.00.eng.tar.gz(撰写时的当前版本为:“Tesseract的英语语言数据(2.00及更高版本)2007年7月989 KB 84845”)。
我已经查看了Stack Overflow上相关的问题。
在这些问题中,我的问题没有完全得到回答或者正在销售商业解决方案。我不想在这个阶段考虑商业解决方案。