我试图从一个PDF文件中提取数据,该文件位于https://www.dol.gov/ui/data.pdf。 我感兴趣的数据在PDF的第4页上,是初始索赔(NSA)的3个观察值、失业保险(NSA)的3个观察值和使用覆盖就业的最新周(注2)。我使用pdftools将PDF读入R,但生成的文本输出相当丑陋(由于PDF的性质,这是可以预料的)。是否有任何方法可以从此文本输出中提取特定数据?我相信数据始终在输出的同一位置,这很有帮助。我要查看的输出可以通过以下脚本看到:
library(pdftools)
download.file("https://www.dol.gov/ui/data.pdf", "data.pdf", mode="wb")
uidata <- pdf_text("data.pdf")
uidata[4]
我搜索了与此相似的问题并尝试使用scan()和grep()方法,但是似乎找不到从文本输出中分离和提取所需数据的方法。如果有人能够帮忙指点方向,将不胜感激-否则我会继续努力解决这个问题!