我似乎总是无法让html_table()
起作用。
这是一个完美的例子: (尝试抓取6场比赛表格)
library(rvest)
hockey <- html("http://www.hockey-reference.com/boxscores/2015/3/6/")
hockey %>%
html_nodes("#stats .tooltip , #stats td , #stats a") %>%
html_table()
但我得到的结果是html_tag(x) == "table" is not TRUE
。
很明显这是一个表格。
我该如何强制rvest将节点识别为表格?
html_nodes()
呢? (您可能需要在html_table()
中使用fill = TRUE
...) - joranout <- hockey %>% html_table(fill = TRUE)
,然后查看第一个,out[[1]]
。 - joranhockey %>% html_nodes("#stats") %>% html_table()
也可以正常工作。再次强调,关键是选择表格内部的节点,而不是表格本身。 - joran