我正在尝试从以下URL抓取数据。但是当 driver.get(url)
时,有时会出现错误 [Errno 104] Connection reset by peer
,有时则是 [Errno 111] Connection refused
。但是在罕见的情况下它可以正常工作,并且在我的Mac电脑上使用真实浏览器时,同样的爬虫每次都能正常工作。因此,这与我的 spider
无关。
已经尝试了许多解决方案,例如等待页面上的选择器、隐式等待、使用selenium-requests传递正确的请求标头等,但似乎都没有起作用。
http://www.snapdeal.com/offers/deal-of-the-day
https://paytm.com/shop/g/paytm-home/exclusive-discount-deals
我正在使用python
、selenium
和无头Firefox webdriver
来实现这个。操作系统是centos 6.5
。
注意:我有许多重度AJAX
页面,已经成功抓取了其中一些,以下是部分列表。
http://www.infibeam.com/deal-of-the-day.html, http://www.amazon.in/gp/goldbox/ref=nav_topnav_deals
已经花了很多天的时间尝试排除问题,但没有成功。任何帮助都将不胜感激。