如何使用Python将PDF文件转换为Excel文件

Question

如何使用Python将PDF文件转换为Excel文件

pythoncsvexport-to-csvtabulaconvertto-json

3

我希望能够使用Python将PDF文件转换为Excel并保存到本地。我已经将PDF文件转换为Excel格式，但是如何将其保存在本地呢？ < p >我的代码：

df = ("./Downloads/folder/myfile.pdf")
tabula.convert_into(df, "test.csv", output_format="csv", stream=True)

- Yuvraj Singh

6个回答

2

在我的情况下，下面的脚本起作用：

import tabula

df = tabula.read_pdf(r'C:\Users\user\Downloads\folder\3.pdf', pages='all')
tabula.convert_into(r'C:\Users\user\Downloads\folder\3.pdf', r'C:\Users\user\Downloads\folder\test.csv' , output_format="csv",pages='all', stream=True)

- Darshil Lakhani

1

我使用Google Collab

安装所需的软件包

!pip install tabula-py
!pip install pandas

导入所需的模块

import tabula
import pandas as pd

读取PDF文件

data = tabula.read_pdf("example.pdf", pages='1')[0] # "all" untuk semua data, pages diisi nomor halaman

将PDF转换为CSV

tabula.convert_into("example.pdf", "example.csv", output_format="csv", pages='1') #"all" untuk semua data, pages diisi no halaman
print(data)

转换为Excel文件

data1 = pd.read_csv("example.csv")
data1.dtypes

现在保存为xlsx格式

data.to_excel('example.xlsx')

- Khoirul Anam

请修复您帖子末尾的损坏代码块。谢谢！ - undefined

0

您也可以将 camelot 与 pandas 结合使用

import camelot
import pandas
tables = camelot.read_pdf(path_to_pdf, flavor='stream',pages='all')
df = pandas.concat([table.df for table in tables])
df.to_csv(path_to_csv)

- smoquet

0

文档说：

输出文件将保存在output_path中

output_path是你的第二个参数，"test.csv"。我猜它应该没问题，但你把它放错了文件夹。它将位于你的脚本附近（准确地说，在当前工作目录），因为你没有指定完整路径。

- QtRoS

0

将PDF文件转换为.xlsx文件：

for item in df:
   list1.append(item)
df = pd.DataFrame(list1)
df.to_excel('outputfile.xlsx', sheet_name='Sheet1', index=True)

- Hith

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- skaul05 · Accepted Answer

您可以指定整个输出路径，而不仅仅是output.csv。

df = ("./Downloads/folder/myfile.pdf")
output = "./Downloads/folder/test.csv"
tabula.convert_into(df, output, output_format="csv", stream=True)

希望这个回答解决了你的问题！！！