早上好,
我是新手,正在使用R进行爬虫,但我在以一种有用的方式从网页上抓取元素列表方面遇到了困难。
以下是我的脚本:
标签中。
我希望它们要么像这样(或者用逗号分隔)。
甚至更好的是以整洁的格式呈现。
我是新手,正在使用R进行爬虫,但我在以一种有用的方式从网页上抓取元素列表方面遇到了困难。
以下是我的脚本:
library(rvest)
url <- read_html("https://www.pole-emploi.fr/annuaire/provins-77070")
webpage <- url %>%
html_nodes('.zone') %>%
html_text()
webpage
当我运行脚本时,所有的元素都挤在一起,没有任何空格分隔,这是可以理解的,因为每个项目都被包含在单独的
[1] "77114GouaixHerméNoyen-sur-SeineVilliers-sur-Seine"
[2] "77118BalloyBazoches-lès-BrayGravon"
我希望它们要么像这样(或者用逗号分隔)。
[1] "77114 Gouaix Hermé Noyen-sur-Seine Villiers-sur-Seine"
[2] "77118 Balloy Bazoches-lès-Bray Gravon"
甚至更好的是以整洁的格式呈现。
Postal City
77114 Gouaix
77114 Hermé
77114 Noyen-sur-Seine
77114 Villiers-sur-Seine
我试图在页面中找到其他选择器或Xpath,但没有成功。最多只能选择列表中的一个单独元素。
如有帮助,将不胜感激。
提前致谢。
purrr
“公式函数”,它具有隐含的变量名.x
(或只是.
)可供使用。它是一种语法糖,有助于简化代码,但像Scala代码中的“_”一样,它只是“从无处弹出一个变量”,并且在第一眼看起来肯定会让人感到困惑。 - hrbrmstr