现在我们需要删除线条,这种情况下是表格网格。这也可以使用连接组件识别并删除大的连接组件来完成。因此,我们需要馈送给OCR引擎的最终图像如下所示。
对于OCR,我们可以使用Tesseract开源OCR引擎。我从OCR得到了以下结果:
Caption title
header! header2 header3
row1cell1 row1cell2 row1cell3
row2cell1 row2cell2 row2cell3
正如我们在这里看到的那样,结果相当准确,但存在一些问题,比如header!应该是header1,这是因为OCR引擎误解了!与1的含义。这个问题可以通过使用基于正则表达式的操作进一步处理结果来解决。