11得票4回答
使用rvest包替代XML包从URL中获取链接

我使用XML包从这个网址获取链接。# Parse HTML URL v1WebParse <- htmlParse(v1URL) # Read links and and get the quotes of the companies from the href t1Links <...

11得票3回答
使用R语言爬取带有搜索功能的包含ASP、JavaScript和分页表格的页面

我正在尝试使用rvest或RSelenium获取 https://www.askebsa.dol.gov/epds/default.asp 上的内容,但在 JavaScript 页面从搜索框开始时找不到指导?希望能将所有这些内容简单地放入 CSV 文件中。 此后,似乎可以从像 https:/...

10得票2回答
rvest,html_nodes()错误:无法将类型“environment”强制转换为类型“list”的向量。在RScript中失败,在会话中工作

html_nodes()函数在以可执行的RScript方式运行时失败,但在交互式运行时成功。有人知道两种运行方式之间可能有什么不同吗? 交互式运行是在全新的会话中运行的,源代码语句是第一个运行的。$ ./test-pdp.R > > #######################...

10得票1回答
卡在如何使用R从该网站上爬取数据这一问题上了。

我正在尝试使用R从此网站中爬取数据:http://www.soccer24.com/kosovo/superliga/results/#我可以执行以下操作:library(rvest) doc <- html("http://www.soccer24.com/kosovo/superli...

10得票2回答
R: 使用rvest提取innerHTML

使用R中的rvest包来爬取网页,我想从节点中提取类似于innerHTML的内容,特别是在应用html_text之前将换行符替换为换行符。 所需功能示例: library(rvest) doc <- read_html('<html><p class="pp">...

10得票1回答
如何在rvest中设置超时时间

简单问题:这段代码 x <- read_html(url) 卡住并且读取页面的时间无限延长。我不知道如何处理它,例如通过设置一些响应的最大时间来处理。我可以使用 try、catch 或者其他方式进行重试。但是它卡住了,什么都没有发生。有人知道如何处理吗? 页面没有问题,有时会出现这种情...

10得票2回答
在R和rvest中抓取多个链接的HTML表格

本文http://www.ajnr.org/content/30/7/1402.full包含四个html表格链接,我想使用rvest进行抓取。 通过css选择器的帮助:"#T1 a" 按照以下方式,可以到达第一个表格:library("rvest") html_session("http:/...

10得票1回答
Rvest读取包含跨越多行的单元格的表格

我正在尝试使用rvest从维基百科抓取一个不规则表格。该表格具有跨越多行的单元格。对于html_table的文档明确指出这是一种限制。我只是想知道是否有解决方法。 表格长这样: 我的代码: library(rvest) url <- "https://en.wikipedia.o...

9得票1回答
使用R中的rvest跟随页面重定向

我刚开始学习 R 和 rvest。我试图使用这些工具从一个允许使用 Athens 学术登录系统进行登录的网站(www.medicinescomplete.com)获取信息。在浏览器中,当您点击 Athens 登录按钮时,它会将您转移到 Athens 登录表单页面。提交用户凭据后,该表单会将浏览...

9得票2回答
我该如何在R中发布一个简单的HTML表单?

我相对于R编程还比较新,正在尝试将我在约翰霍普金斯数据科学课程中学到的一些东西应用到实践中。具体来说,我想自动化从美国财政部网站下载历史债券价格的过程。 使用Firefox和R,我能够确定美国财政部网站使用非常简单的HTML POST表单来指定感兴趣的报价日期。然后它会返回所有未偿还债券的二...