我正在抓取
http://www.progarchives.com/album.asp?id=
并收到一个警告信息:
该爬虫适用于每个页面,但不适用于警告信息:
XML内容似乎不是XML:
http://www.progarchives.com/album.asp?id=2
http://www.progarchives.com/album.asp?id=3 http://www.progarchives.com/album.asp?id=4
http://www.progarchives.com/album.asp?id=5
b1=2:b2=1000
的URL。 library(RCurl)
library(XML)
getUrls <- function(b1,b2){
root="http://www.progarchives.com/album.asp?id="
urls <- NULL
for (bandid in b1:b2){
urls <- c(urls,(paste(root,bandid,sep="")))
}
return(urls)
}
prog.arch.scraper <- function(url){
SOURCE <- getUrls(b1=2,b2=1000)
PARSED <- htmlParse(SOURCE)
album <- xpathSApply(PARSED,"//h1[1]",xmlValue)
date <- xpathSApply(PARSED,"//strong[1]",xmlValue)
band <- xpathSApply(PARSED,"//h2[1]",xmlValue)
return(c(band,album,date))
}
prog.arch.scraper(urls)
"bind_rows"
。我重新安装了所有的包,但还是没有成功。 - monarque13rbindlist
解决了问题。我一直想学习rvest
,所以你的代码让我更加详细地了解了它。谢谢@hrbrmstr。不过还有一个问题,sprintf
在html函数内部实际上是做什么的? - monarque13http://www.progarchives.com/album.asp?id=2347
以获取示例。 - monarque13rbindlist
。 - hrbrmstr