8得票2回答
用Python进行文本布局识别

我正在尝试整理数千个扫描文件,并根据类型将它们归类到文件夹中(例如:如果其中一个文件是表格A的扫描副本,则应将其放入表格A文件夹中;如果是表格B的扫描副本,则应将其放入表格B文件夹中,以此类推...)。我认为匹配文件和类型的最佳方法是基于它们的文本轮廓,但我对图像处理完全不熟悉,所以如果有更好...

7得票2回答
从扫描的文档图像中提取没有网格线和边框的表格数据

从数字化PDF中提取表格数据已经可以通过camelot和tabula轻松实现。然而,当表格不具备边框和内部网格时,该解决方案无法处理扫描图像的文档页面。我一直在尝试使用OpenCV生成垂直和水平线条。然而,由于扫描图像会有轻微旋转角度,因此很难继续使用这种方法。 如何利用OpenCV为包含表...