这个问题在Stackoverflow上并不新鲜,但我确信我错过了一些显而易见的东西。
我正在尝试将一些.pdf文件转换为.txt文件,以便对它们进行文本挖掘。我基于这个优秀的脚本,来实现我的方法。.pdf文件中的文本不是由图像组成的,因此不需要OCR技术。
# Load tm package
library(tm)
# The folder containing my PDFs
dest <- "./pdfs"
# Correctly installed xpdf from http://www.foolabs.com/xpdf/download.html
file.exists(Sys.which(c("pdfinfo", "pdftotext")))
[1] TRUE TRUE
# Delete white spaces from pdfs' names
sapply(myfiles, FUN = function(i){
file.rename(from = i, to = paste0(dirname(i), "/", gsub(" ", "", basename(i))))
})
# make a vector of PDF file names
myfiles <- list.files(path = dest, pattern = "pdf", full.names = TRUE)
lapply(myfiles, function(i) system(paste('"C:/Program Files/xpdf/bin64/pdftotext.exe"',
paste0('"', i, '"')), wait = FALSE))
它应该在
dest
文件夹中创建任何.pdf文件的.txt副本。我检查了路径,检查了路径中的空格,检查了xpdf常见安装问题,但没有任何反应。这是我正在工作的存储库。如果有用的话,我可以粘贴
SessionInfo
。提前致谢。