提高Tesseract OCR实时捕捉的预处理步骤

Question

提高Tesseract OCR实时捕捉的预处理步骤

7

我正在使用Tesseract库读取身份证信息。我尝试使用一些Google图片并获得了良好的结果，但当我使用实时图像（即从iPhone相机捕获图像）时，结果不佳。我发现Tesseract建议一些预处理步骤。 1. 修复DPI（如果需要），300 DPI是最低要求。 如何在实时从iPhone相机捕获图像时设置图像的DPI？ 2. 修复文本大小（例如12 pt应该可以）。 如何为iPhone相机创建的大型图像修复文本大小？ 3. 尝试修复文本行（矫正和去除文本扭曲）。 我读到Tesseract使用Leptonica库来应用去扭曲文本。在这个预处理阶段，需要去扭曲或者去偏斜文本吗？

尝试修复图像的光照（例如没有暗部分的图像）。

我可以使用OpenCV对图像进行光照处理吗？

将图像二值化并去噪。

当我对实时图像应用阈值或自适应阈值时，得到的二值化图像质量很差。

如何对这些实时图像进行二值化？

- balajichinna

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Jesper Schläger · Accepted Answer

1. 第2点：当文本的字号为12时，这意味着在72 DPI下它占用了12像素的高度。在300 DPI下大约为50像素。因此，您应该从1和2中得出结论，尝试使捕获图像的分辨率使文本行高约为50像素。如何做取决于您如何捕获图像。
1. 要求用户保持相机水平可能更容易:-)
1. 第5点：您可以尝试应用一些过滤技术。同样，要求用户确保适当的照明可能会更容易。