使用OpenCV Python从扫描文档中提取带有线条的表格。

Question

7

我希望从扫描表格中提取信息并将其存储为csv。目前，我的表格提取算法执行以下步骤:

这个算法对于数字 born 的pdf和大多数扫描文档都能很好地工作。但是，一些文档具有嘈杂的表格，因此无法正确识别线条。

这是一个样本图像，其中我的算法失败了。

这是我在这个表格上进行的操作。 1. 高斯模糊

2.大津阈值处理

3.形态学开运算

4. Canny边缘检测

5条过滤后的行，正如您所看到的，这些行明显未被正确识别。

请问有没有更好的方法可以从这种低质量扫描件中提取水平和垂直线条。

谢谢提前！

- Sreekiran A R

3个回答

1

问题是，现在并且以后都将是您没有完美的线条。这种方法的一个解决方案可以是：

- Shubhankar Mohan

0

问题可能出在HoughLinesTransform()中

你可以尝试使用：HoughLinesTransformP()

为了让HoughLinesTranform()完美地工作，线条需要是完美的。从您提供的图像中，您可以清楚地看到明显的扭曲，这显然导致该方法失败。

首先尝试膨胀您的图像。Python中的图像膨胀。

- Jimit Vaghela

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Sreekiran A R · Accepted Answer

我在这篇博客中找到了一个完美的解决方案：https://medium.com/coinmonks/a-box-detection-algorithm-for-any-image-containing-boxes-756c15d7ed26。我们使用垂直核进行形态学变换来检测垂直线条，使用水平核检测水平线条，然后将它们合并以获得所有所需的线条。

垂直线条：

水平线条：

所需输出：