我正在使用Python从PDF文件中提取文本。 我的主要目标是创建一个程序,读取银行对账单并提取其文本以更新Excel文件,以便轻松记录每月支出。 目前,我只专注于从pdf文件中提取文本,但我不知道该如何做。
目前最好和最简单的从PDF文件中提取文本的方法是什么? 最好使用哪个库? 我应该如何实现?
我已经尝试使用PyPDF2,但每次使用extractText()从任何页面提取文本时都会返回空字符串。 我尝试安装textract,但由于我需要更多的库,所以出现了错误。
from PyPDF2 import PdfReader
reader = PdfReader("January2019.pdf")
page = reader.pages[0]
print(page.extract_text())
当它应该打印页面内容时,它会打印空字符串
编辑:此问题是针对非常旧的PyPDF2版本提出的。新版本的PyPDF2大大改善了文本提取功能