是否有任何开源库支持表格识别和提取?
我的意思是:
- 判断表格结构是否存在
- 从其内容中对表格进行分类
- 以有用的输出格式(如JSON / CSV等)提取表格数据
我查看了关于这个主题的类似问题,并找到了以下内容:
- PDFMiner 解决了第三个问题,但似乎用户需要为每个表格指定PDFMiner中表格结构的位置(如果我错了,请纠正我)
- pdf-table-extract 尝试解决第一个问题,但根据待办事项清单,目前无法识别由空格分隔的表格。这是一个问题,因为我PDF中的所有表格都由空格分隔!
目前,我认为我需要花很多时间开发机器学习解决方案来从PDF中识别表格结构。因此,任何其他方法都将不胜感激!