我尝试从此网页上的“团队统计”表格中获取数据:
https://www.hockey-reference.com/teams/CGY/2010.html
我没有很多网络爬虫的经验,但已经尝试了XML包和rvest包:
library(rvest)
url <- html("https://www.hockey-reference.com/teams/CGY/2010.html")
url %>%
html_node(xpath = "//*[@id='team_stats']")
并且最终得到一个看起来像单个节点的结果:
{xml_node}
<table class="sortable stats_table" id="team_stats" data-cols-to-freeze="1">
[1] <caption>Team Statistics Table</caption>
[2] <colgroup>\n<col>\n<col>\n<col>\n<col>\n<col>\n<col>\n<col>\ ...
[3] <thead><tr>\n<th aria-label="Team" data-stat="team_name" sco ...
[4] <tbody>\n<tr>\n<th scope="row" class="left " data-stat="team ...
我该如何解析它,以仅获取标题和两行表格中的信息?
.[1]
)对我来说返回的是表格列表中的第一个元素,而不仅仅是第一列。无论如何,我已经更新了我的答案,使用.[[1]]
,因为在这一点上我们不需要一个列表,我们只对第一个表格感兴趣,如果我们要从列表中选择多个元素,我们才会使用.[
。 - tyluRp