我正在使用Tesseract OCR引擎在iPhone应用程序中读取账单发票照片中的特定数字字段。通过大量的照片预处理(自适应阈值,伪影清除等),结果最终相当准确,但仍有一些情况需要改进。
如果用户在低光条件下拍摄照片,并且图片中存在一些噪点或伪影,则OCR引擎会将这些伪影解释为额外的数字。在某些罕见情况下,例如将32.15欧元的数字金额读作5432.15欧元,这对于产品的最终用户信心来说根本不好。
我认为,如果每个字符读取时都存在内部OCR引擎读取错误,那么在我之前的例子中,“54”数字上的读取错误会更高,因为它们是在小噪点上识别的,如果我能够访问这些读取错误值,我将能够轻松舍弃错误的数字。
您是否知道任何方法可以获得从Tesseract OCR引擎返回的每个单独字符的读取错误大小(或任何“准确度因素”值)?
如果用户在低光条件下拍摄照片,并且图片中存在一些噪点或伪影,则OCR引擎会将这些伪影解释为额外的数字。在某些罕见情况下,例如将32.15欧元的数字金额读作5432.15欧元,这对于产品的最终用户信心来说根本不好。
我认为,如果每个字符读取时都存在内部OCR引擎读取错误,那么在我之前的例子中,“54”数字上的读取错误会更高,因为它们是在小噪点上识别的,如果我能够访问这些读取错误值,我将能够轻松舍弃错误的数字。
您是否知道任何方法可以获得从Tesseract OCR引擎返回的每个单独字符的读取错误大小(或任何“准确度因素”值)?