我正在使用R语言中的rvest
库进行爬虫,我了解一些HTML和CSS。
我想获取一个URI中每个产品的价格:
http://www.linio.com.co/tecnologia/celulares-telefonia-gps/
随着页面向下滚动,新的商品会被加载出来。
到目前为止,我已经做了什么:
Linio_Celulares <- html("http://www.linio.com.co/celulares-telefonia-gps/")
Linio_Celulares %>%
html_nodes(".product-itm-price-new") %>%
html_text()
我得到了我需要的东西,但只针对前25个元素(这些是默认加载的)。
[1] "$ 1.999.900" "$ 1.999.900" "$ 1.999.900" "$ 2.299.900" "$ 2.279.900"
[6] "$ 2.279.900" "$ 1.159.900" "$ 1.749.900" "$ 1.879.900" "$ 189.900"
[11] "$ 2.299.900" "$ 2.499.900" "$ 2.499.900" "$ 2.799.000" "$ 529.900"
[16] "$ 2.699.900" "$ 2.149.900" "$ 189.900" "$ 2.549.900" "$ 1.395.900"
[21] "$ 249.900" "$ 41.900" "$ 319.900" "$ 149.900"
问题:如何获取这个动态部分的所有元素?
我猜,我可以滚动页面直到所有元素都加载完毕,然后使用html(URL)。但这似乎是很麻烦的(因为我打算在不同的部分进行此操作)。应该有一种编程的解决方法。
XML
包。 - Hack-Rrvest
中完成它:https://dev59.com/Uobca4cB1Zd3GeqPYqv- - Hack-RRSelenium
来实现这个功能 - 参见这篇相关帖子。 - nrussell