我正在尝试将一个pdf文件夹读入到R中的数据框中。我可以使用pdftools库和pdf_text(filepath)函数读取单个PDF文件。理想情况下,我希望能够获取一系列pdf文件的作者和标题,并将它们推入具有这些列的数据框中,以便我可以在文本上使用基本的tidytext函数。目前,对于单个文件,我只需使用:
library(pdftools)
library(tidytext)
library(dplyr)
txt <- pdf_text("filpath")
txt <- data_frame(txt)
txt %>%
unnest_tokens(word, txt)
我这里有一个只包含单词的数据框(dataframe),现在我想要将文章展开,生成标题和作者两列,并构建成一个新的数据框。
files <- list.files(".pdf")
获取文件列表,然后使用txtList <- sapply(files,pdf_text)
将它们读入到一个列表中。希望你也能从其中一个文件中提取出标题/作者 - 不过如果你不分享数据示例的话,这是不可能的。 - Andrew Gustar