我正在使用OpenCV 2.4和Tesseract 3,尝试从网络摄像头上读取14段显示器的OCR。问题在于,当我训练Tesseract时,我必须进行足够的腐蚀/膨胀以填充每个段的间隙。但是,我从网络摄像头中读取的图像需要进行预处理以消除噪声。为此,我使用了侵蚀和膨胀,结果图片的各个部分没有连接起来:
- 我用来训练tesseract的图片(即“V”字形):http://i.imgur.com/NbmVqkb.png(所有段都连接在一起) - 我输入到tesseract中的图片:http://i.imgur.com/0E4iXXk.png(有些段连接在一起,有些则没有)
OCR的结果总是不同的,可能是“OVO”也可能是“EB”。我认为,如果我使用更相似的版本来训练tesseract(非链接段),它可能会工作得更好,但是像这样的空格无法用于训练Tesseract(它会说“Empty page”)。
有人有什么解决方法吗?
我尝试增加腐蚀/膨胀的大小,但是其他字母无法识别(B和D很容易混淆),整体结果较差。
谢谢!
编辑:基本上,我需要一种将段落链接在一起以使tesseract更容易读取字符的方法或一种训练tesseract的方法,使其能够处理未链接的段落(据我所见,这是不可能的)。
- 我用来训练tesseract的图片(即“V”字形):http://i.imgur.com/NbmVqkb.png(所有段都连接在一起) - 我输入到tesseract中的图片:http://i.imgur.com/0E4iXXk.png(有些段连接在一起,有些则没有)
OCR的结果总是不同的,可能是“OVO”也可能是“EB”。我认为,如果我使用更相似的版本来训练tesseract(非链接段),它可能会工作得更好,但是像这样的空格无法用于训练Tesseract(它会说“Empty page”)。
有人有什么解决方法吗?
我尝试增加腐蚀/膨胀的大小,但是其他字母无法识别(B和D很容易混淆),整体结果较差。
谢谢!
编辑:基本上,我需要一种将段落链接在一起以使tesseract更容易读取字符的方法或一种训练tesseract的方法,使其能够处理未链接的段落(据我所见,这是不可能的)。