我有一组打印机打出的图像标题,如下所示:
我知道打印机是一致的,等宽的,字符测量为14x22px(从大写字母顶部到下降者底部)。
当Tesseract检测到正确的字母边界框时,输出结果如下:
当许多字母串聚在一起时(例如第一行上的“Ea”,“tree”,“fr”和“om”),结果通常会出现问题。这些总是被错误地转录,并且占据了大部分错误。
很不爽,因为我预先知道所有字符都是特定大小的。是否可能将此信息传递给tesseract命令行工具?
生成框文件的命令如下:
如果可能的话,我更愿意避免在字体上训练Tesseract——我没有手动转录的样本,因此构建训练数据语料库需要一些努力。
![Typewritten text](https://istack.dev59.com/6YVxM.webp)
当Tesseract检测到正确的字母边界框时,输出结果如下:
![OCR results for typewritten text](https://istack.dev59.com/qzTpR.webp)
很不爽,因为我预先知道所有字符都是特定大小的。是否可能将此信息传递给tesseract命令行工具?
生成框文件的命令如下:
tesseract foo.jpg foo batch.nochop makebox
如果可能的话,我更愿意避免在字体上训练Tesseract——我没有手动转录的样本,因此构建训练数据语料库需要一些努力。