我是一个新手网页爬虫,并尝试在多个网页上爬取表格。这是该网站:http://www.baseball-reference.com/teams/MIL/2016.shtml
我能够使用
问题是我想抓取1970年以来网页上的第一个表格。在表格上方左上角有一个链接指定前一年的数据。有人知道我该如何做吗?
我也愿意尝试其他方式来完成这个任务,比如使用除了rvest之外的其他包可能会更好用。我使用rvest是因为它是我开始学习的。
rvest
轻松地爬取一个页面上的表格。有多个表格,但我只想爬取第一个表格,以下是我的代码:library(rvest)
url4 <- "http://www.baseball-reference.com/teams/MIL/2016.shtml"
Brewers2016 <- url4 %>% read_html() %>%
html_nodes(xpath = '//*[@id="div_team_batting"]/table[1]') %>%
html_table()
Brewers2016 <- as.data.frame(Brewers2016)
问题是我想抓取1970年以来网页上的第一个表格。在表格上方左上角有一个链接指定前一年的数据。有人知道我该如何做吗?
我也愿意尝试其他方式来完成这个任务,比如使用除了rvest之外的其他包可能会更好用。我使用rvest是因为它是我开始学习的。