25得票2回答
使用'rvest'提取链接

我正在尝试从Yelp上抓取数据。第一步是从每家餐厅中提取链接。例如,我搜索纽约市的餐厅并获得了一些结果。然后,我想提取第一页上Yelp推荐的所有10家餐厅的链接。以下是我尝试过的方法:library(rvest) page=read_html("http://www.yel...

23得票1回答
使用rvest或httr登录网页上的非标准表单

我试图使用rvest来爬取一个需要在表单上登录电子邮件/密码的网页。rm(list=ls()) library(rvest) ### Trying to sign into a form using email/password url <-"http://www.pe...

22得票1回答
R - 如何使用rvest或rcurl在网页上进行点击

我想从这个网页下载数据。 使用rvest可以轻松地抓取数据。 代码可能像这样:library(rvest) library(pipeR) url <- "http://www.tradingeconomics.com/" css <- "#ctl00_ContentPl...

22得票2回答
使用无限滚动的动态电子商务页面进行抓取

我正在使用R语言中的rvest库进行爬虫,我了解一些HTML和CSS。 我想获取一个URI中每个产品的价格: http://www.linio.com.co/tecnologia/celulares-telefonia-gps/ 随着页面向下滚动,新的商品会被加载出来。 到目前为止,我...

22得票3回答
rvest如何通过id选择特定的CSS节点

我正在尝试使用rvest包从网页中抓取数据。简单格式下,HTML代码如下:<div class="style"> <input id="a" value="123"> <input id="b"> </div> 我想从第一个输入框中获...

20得票3回答
如何在R中的read_html之后关闭未使用的连接

我对R很陌生,试图从互联网上获取一些信息,但是连接似乎没有关闭的问题让我很困扰。如果这里有人能给我一些建议,我会非常感激... 最初我想使用WebChem包,理论上它可以提供我需要的一切,但是当网页中缺少某些输出数据时,WebChem不会返回该页的任何数据。为了解决这个问题,我大部分代码来自...

18得票5回答
rvest错误:open.connection(x,“rb”)超时

我试图从http://google.com中爬取内容,但是出现了错误信息。library(rvest) html("http://google.com") Error in open.connection(x, "rb") : 超时达到。此外: 警告信息: 'html'已过...

16得票4回答
无法安装rvest软件包

我需要为R版本3.1.2(2014年10月31日)安装rvest包。 我遇到了以下错误: checking whether the C++ compiler supports the long long type... no *** stringi cannot be built. U...

15得票2回答
使用特定类的div标签抓取所有内容

我正在从一个特定的类中抓取网站上的所有文本。在以下示例中,我想提取所有在 class="a" 的 中的内容。site <- "<div class='a'>Hello, world</div> <div class='b'>Good mornin...

15得票1回答
rvest:如何找到HTML页面中使用的所有类?

我想找到下面网页中所有使用的类。使用rvest能否实现,还是需要一些正则表达式/ grepl?一旦知道类名,我就能够爬取信息,但对于动态构建类名的页面,了解使用的类别将非常方便。library(rvest) doc_url<-"http://curia.europa.eu/juris/...