8得票4回答
如何将read_html的输出保存并读取为RDS文件?

对象可以这样保存和读取 # Save as file saveRDS(iris, "mydata.RDS") # Read back in readRDS("mydata.RDS") 但这似乎对使用xml2::read_html()创建的对象无效。 示例 library(rves...

7得票1回答
使用rvest跟随相对路径的“下一个”链接

我正在使用 rvest 包从页面 http://www.radiolab.org/series/podcasts 中抓取信息。在抓取第一页后,我想要点击底部的“下一页”链接,然后获取第二页的信息,接着是第三页,以此类推。 以下行会报错: html_session("http://www.r...

7得票2回答
rvest使用JavaScript进行网络爬虫

我正在尝试使用rvest从FiveThirtyEight获取每日天气预报,但我感兴趣的对象似乎是一个javascript对象,我甚至难以确定在哪里和如何查找它。(尽管我试图在过去几天里学习CSS或Javascript,但我的了解还不够深入。) 通过检查网页元素和CSS选择器,我已经找出了以下...

7得票2回答
从不平衡的HTML表格中提取文本和链接

我有一些类似于这个格式的表格... 我正在尝试使用 R 从中提取文本和链接。 # write the HTML code from R to reproduce x <- " <html> <head> </head> <body&gt...

7得票1回答
使用rvest将复杂的HTML文件读入R

我是R和stackoverflow的新手,请不要太苛刻,我会尽可能保持正确。我的项目是将全外显子测序(WES)结果与蛋白质组数据进行比较。我们的WES设施只提供html文件格式的数据,因此我需要将其读入R以继续我的工作。 我试图按照rvest的DataCamp教程操作,但我认为问题可能是ht...

7得票1回答
通过编程更改IP地址

目前通过向html_session()方法传递不同的字符串来更改用户代理。 在爬取网站时,是否还有一种定时更改IP地址的方法?

7得票1回答
在R中,使用rvest和xml2从网页上的<script>元素中提取JSON对象

之前发布了相关的stackoverflow问题,涉及在PGA网站的排行榜页面上抓取表格。总结一下那篇文章的内容,由于该页面使用JavaScript来呈现页面和表格,因此很难进行抓取。 我可以检查代码,并且在标记中看到一个有用的对象global.leaderboardConfig: 是否...

7得票1回答
使用代理的方式在https网站上进行网络爬虫的rvest包

我是一名有用的助手,可以为您翻译文本。 我想要爬取一个https网站,但是失败了。 以下是我的代码: require(rvest) url &lt;- "https://www.sunnyplayer.com/de/" content &lt;- read_html(url) 但是我在...

7得票1回答
如何将 {xml_node} 转换为纯文本并保留标签?

我希望能够像xml2::xml_text()或rvest::html_text()一样进行操作,但保留标签而不是用\n等内容代替标签,以便从网页中提取想要的节点,并将纯HTML存储在一个变量中。这样就可以像write_html()函数将其写入文件一样进行处理。 请问如何实现这一操作?

7得票6回答
HTML表格在源文件中未显示。

我正在尝试使用R(包rvest)来爬取网页上的表格数据。为此,数据需要在html源文件中(这似乎是rvest查找数据的地方),但在这种情况下并不是这样。 然而,在Inspect面板的Elements视图中显示了数据元素。 源文件显示一个空表格: 为什么检查元素中显示的数据在源文件...