14得票1回答
使用R语言从网页中抓取可下载文件的链接地址?

我正在尝试自动化一个流程,涉及从几个网页下载.zip文件并提取其中的.csv文件。挑战在于.zip文件名以及链接地址每周或每年更改一次,具体情况取决于该页面。是否有一种方法可以从这些页面中爬取当前的链接地址,以便我可以将这些地址提供给下载文件的函数? 目标页面之一是这个页面。我想要下载的文件是...

13得票1回答
如何在Rvest包中提交登录表单而不需要按钮参数

我正在尝试使用rvest包中的html_session()和html_form()来爬取需要认证的网页。我发现Hadley Wickham提供的示例,但无法根据自己的情况进行定制。united <- html_session("http://www.united.com/") accou...

13得票1回答
为什么使用rvest进行网页抓取时会出现“Error: length(url) == 1 is not TRUE”的错误?

我正在尝试抓取网页数据,但第一步需要登录。我已经成功地登录了其他网站,但是在这个网站上出现了奇怪的错误。library("rvest") library("magrittr") research <- html_session(&quot...

12得票1回答
如何使用rvest和xpath抓取表格?

使用以下文档,我一直在试图从marketwatch.com上爬取一系列的表格。 下面的代码表示其中一个表: 链接和xpath已经包含在代码中:url <- "http://www.marketwatch.com/investing/stock/IRS/profile" valua...

12得票1回答
错误:找不到函数“read_html”

我使用这段代码library(rvest) url<-read_html("http://en.wikipedia.org/wiki/Brazil_national_football_team") 我收回这个错误。Error: could not find function "read_...

12得票1回答
rvest能否使用html_table保留内联HTML标签,例如<br>?

我正在尝试在R中爬取一个以HTML形式给出的表格。使用Rvest很容易将表格中的文本提取出来,但我希望保留表格中的内联样式。 例如,表格中的文本可能是"This is a sentence &lt;BR&gt; this is another sentence" 我希望保留&lt;BR&gt...

12得票1回答
当rvest无法识别提交按钮时,如何提交POST表单

我想提交以下表格(在单击“Kliknite na ...”链接后将显示表格): http://www1.biznet.hr/HgkWeb/do/extlogon 我需要输入一个名为“OIB”的参数,并通过单击“Trazi”提交表格。 这是我的代码:library(httr) library...

12得票1回答
rvest - 抓取一个标签中的2个类

我是rvest的新手。如何提取那些具有2个类名或仅一个类名的标签中的元素? 这是我的代码和问题:doc &lt;- paste("&lt;html&gt;", "&lt;body&gt;", "&lt;span class='a1 b1'&...

12得票3回答
使用tryCatch和rvest处理404和其他爬取错误

用rvest检索h1标题时,有时会遇到404页面,这会停止进程并返回此错误。 Error in open.connection(x, "rb") : HTTP error 404. 请参见下面的示例Data&lt;-data.frame(Pages=c( "http://boin...

12得票3回答
使用rvest下载图像

我正在尝试通过R从一个安全站点下载一个png图像。 为了访问这个安全站点,我使用了Rvest,这很有效。 到目前为止,我已经提取了png图像的URL。 如何使用rvest下载这个链接的图像? 在rvest函数之外的函数由于没有权限而返回错误。 当前尝试library(rvest) u...