有人可以帮助我了解如何阅读PDF文件,其中包含一些表格。我想提取表格中的数据并排列到CSV文件中。
非常感谢。
有人可以帮助我了解如何阅读PDF文件,其中包含一些表格。我想提取表格中的数据并排列到CSV文件中。
非常感谢。
我知道这个问题已经有一段时间了,但我认为提供可重现的示例可能没有坏处:
library(pdftools)
pdftools::pdf_text(pdf = "http://arxiv.org/pdf/1403.2805.pdf")
离线版本:
pdf(file = "tmp.pdf")
plot(1, main = "mytext")
dev.off()
pdftools::pdf_text(pdf = "tmp.pdf")
我时不时地回到这个问题,即使当前的答案很好,但我总是希望找到可重现的代码。所以我想添加它。如果不需要可以删除。
readPDF
创建读取PDF文件的函数。您可以随意命名该函数,例如Rpdf。library(pdftools)
Rpdf <- readPDF(control = list(text = "-layout"))
readPDF
函数有一个控制参数,我们使用它来将选项传递给我们的PDF提取引擎。这必须是一个列表形式,因此我们将选项包装在列表函数中。对于xpdf引擎,有两个控制参数:info和text。info将参数传递给pdfinfo.exe,text将参数传递给pdftotext.exe。我们只向pdftotext
传递一个参数设置:“-layout”。这告诉pdftptext.exe尽可能保持文本的原始物理布局。opinions <- Corpus(URISource(files), readerControl = list(reader = Rpdf))
readPDF
在tm
包中。 - John M