我有一份PDF文件,想要从中提取所有的表格。但是当我运行下面的代码时,得到空列表。
import pdftables
filepath = 'File_Set_-2_feasibility_Study/140u-td005_-en-p.pdf'
with open(filepath, 'rb') as fh:
table = pdftables.get_tables(fh)
print(table)
我有一份PDF文件,想要从中提取所有的表格。但是当我运行下面的代码时,得到空列表。
import pdftables
filepath = 'File_Set_-2_feasibility_Study/140u-td005_-en-p.pdf'
with open(filepath, 'rb') as fh:
table = pdftables.get_tables(fh)
print(table)
我猜PDF文件有多页?这个应该可以解决:
from pdftables.pdf_document import PDFDocument
from pdftables.pdftables import page_to_tables
filepath = ...
page_number = ...
with open(filepath, 'rb') as file_object:
pdf_doc = PDFDocument.from_fileobj(file_object)
pdf_page = pdf_doc.get_page(pagenumber)
tables = page_to_tables(pdf_page)
print(tables)
您也可以迭代多个页面:
for page_number, page in enumerate(pdf_doc.get_pages()):
tables = page_to_tables(page)
print(tables)
File_Set_-2_feasibility_Study/140u-td005_-en-p.pdf
是一个绝对路径而非相对路径。这是文件存储的位置吗? - Michael Dorner#安装以下库以使用PDF表格,这对我有效
> pip install pdftables.six