我一直在尝试使用不同的选项来使用纯tesseract 3 OCR从字母表格中获取数据,其中我的学生将一个作为多项选择题答案标记,如下所示:
最好的输出之一是:
EEEEEEEEEEEEEEEEEEEEEEEEE
DDDDDDDDDDDDDDDDDDDDDDDDD
CCCCCCCCCCCCCCCCCCCCCCCCC
BBBBBBBEBBBBBBBBBBBBBBBBB
AAAAAAAAAAAAAAAAAAAAAAAAA
6789012345678901234567890
2222333333333344444444445
EEEEE EEEE EE EEE EEEEEEE
DDDDDD DDD DDDDDDDDDDDD
CCCCCCCCCCCCCCCCCC CCCCC
B BEBE BB BBBBBBBBBBBBBBB
AA AAA AAAAA AAAAAAAA
1234567890123455789012345
OOOOOOOOO1111111111222222
我知道我可以解析那个 .txt 文件并获得更好的结果,但是它丢失了很多信息并从一些绘制块中获取了字母。
我想知道在这种情况下我能做什么来获得更好的结果。
我还想要一个表格,将绘制的块显示为不同的字符,例如,对于图像的第一行和第二行:
01 A B C - E 26 A B C D E
02 A - C D E 27 A B C D E
如果你们有类似的经验,任何信息都会受到赞赏!提前致谢!