得票数最多 'document-layout-analysis' 问题

关联标签

8得票2回答

用Python进行文本布局识别

我正在尝试整理数千个扫描文件，并根据类型将它们归类到文件夹中（例如：如果其中一个文件是表格A的扫描副本，则应将其放入表格A文件夹中；如果是表格B的扫描副本，则应将其放入表格B文件夹中，以此类推...）。我认为匹配文件和类型的最佳方法是基于它们的文本轮廓，但我对图像处理完全不熟悉，所以如果有更好...

pythonimage-processingocrdocument-layout-analysis

7得票2回答

从扫描的文档图像中提取没有网格线和边框的表格数据

从数字化PDF中提取表格数据已经可以通过camelot和tabula轻松实现。然而，当表格不具备边框和内部网格时，该解决方案无法处理扫描图像的文档页面。我一直在尝试使用OpenCV生成垂直和水平线条。然而，由于扫描图像会有轻微旋转角度，因此很难继续使用这种方法。如何利用OpenCV为包含表...

pythonimage-processingocrdata-extractiondocument-layout-analysis