尝试使用Python 3.6从PDF中提取表格。看起来[pyPDF2][1]失败了,而[pdfminer][2]不兼容3.x。我找到了一个用于[tabula][3]的Python包装器。
import tabula
file_list = get_pdf_list()
text = tabula.read_pdf(file_list[0])
print(text)
tabula.convert_into(file_list[0], "test.json", ouput_format="json")
Both read_pdf and convert_into都没有返回结果。PyPDF2也遇到了同样的问题。运行时没有出现任何错误。
我开始觉得这可能与我的pdf格式有关。有人有更多经验吗?我试图从pdf中的一个表格中提取一个值。
[pyPDF2][1] ... [pdfminer][2]
。如果你愿意,你也可以修复它。 - Claudio