提高Tesseract OCR实时捕捉的预处理步骤

7
我正在使用Tesseract库读取身份证信息。我尝试使用一些Google图片并获得了良好的结果,但当我使用实时图像(即从iPhone相机捕获图像)时,结果不佳。我发现Tesseract建议一些预处理步骤。 1. 修复DPI(如果需要),300 DPI是最低要求。 如何在实时从iPhone相机捕获图像时设置图像的DPI? 2. 修复文本大小(例如12 pt应该可以)。 如何为iPhone相机创建的大型图像修复文本大小? 3. 尝试修复文本行(矫正和去除文本扭曲)。 我读到Tesseract使用Leptonica库来应用去扭曲文本。在这个预处理阶段,需要去扭曲或者去偏斜文本吗?
尝试修复图像的光照(例如没有暗部分的图像)。
我可以使用OpenCV对图像进行光照处理吗?
将图像二值化并去噪。
当我对实时图像应用阈值或自适应阈值时,得到的二值化图像质量很差。
如何对这些实时图像进行二值化?
1个回答

1
    1. 第2点:当文本的字号为12时,这意味着在72 DPI下它占用了12像素的高度。在300 DPI下大约为50像素。因此,您应该从1和2中得出结论,尝试使捕获图像的分辨率使文本行高约为50像素。如何做取决于您如何捕获图像。
    1. 要求用户保持相机水平可能更容易:-)
    1. 第5点:您可以尝试应用一些过滤技术。同样,要求用户确保适当的照明可能会更容易。

我认为原帖的作者更想以编程方式执行这些步骤。有什么进展吗? - Istiaque Ahmed

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接