378得票3回答
无头浏览器和爬虫 - 解决方案

我试图列出一些浏览器自动化测试套件和能够进行抓取的无头浏览器平台的可能解决方案列表。 浏览器测试/抓取: Selenium - 跨语言 浏览器自动化的旗舰产品,提供多个编程语言绑定,如Python、Ruby、JavaScript、C#、Haskell等。Firefox的IDE(作为扩展程序...

284得票27回答
爬虫:针对http://en.wikipedia.org的SSL证书验证失败错误

我正在练习《Python网络数据采集》中的代码,但我一直遇到这个证书问题: I'm practicing the code from 'Web Scraping with Python', and I keep having this certificate problem: from ur...

245得票25回答
无法在Mac OS X 10.9上安装Lxml

我想安装Lxml,以便之后可以安装Scrapy。 当我今天更新我的Mac时,它不允许我重新安装lxml,我遇到了以下错误:In file included from src/lxml/lxml.etree.c:314: /private/tmp/pip_build_root/lxml/src/...

210得票18回答
在安装Scrapy时,出现了"OSError: [Errno 1] Operation not permitted"的错误,原因是在OSX 10.11(El Capitan)中启用了系统完整性保护(System Integrity Protection)。

我正在尝试通过pip在OSX 10.11(El Capitan)上安装Scrapy Python框架。安装脚本会下载所需的模块,但在某个时候返回以下错误:OSError: [Errno 1] Operation not permitted: '/tmp/pip-nIfswi-uninstall...

167得票10回答
Scrapy能否用于爬取使用AJAX的动态网站内容?

我最近开始学习Python,并尝试构建一个网络爬虫。它并不复杂,只是为了从博彩网站获取数据并将这些数据放入Excel。 大多数问题都可以解决,我正在进行一些有趣的实验。然而,我在一个问题上遇到了巨大的障碍。如果一个网站加载了一张马匹表格并列出当前的赌注价格,那么这些信息不会出现在任何源文件中...

163得票9回答
BeautifulSoup和Scrapy爬虫的区别是什么?

我想制作一个网站,展示亚马逊和eBay产品价格的比较。哪个更好并且为什么? 我对BeautifulSoup有一些了解,但不太了解Scrapy爬虫。

125得票5回答
如何在Scrapy爬虫中传递用户定义的参数

我想要向Scrapy的爬虫传递一个用户定义的参数,请问有什么建议吗? 我在某个地方读到了一个-a参数,但不知道如何使用它。

113得票11回答
如何使用PyCharm调试Scrapy项目。

我正在使用Python 2.7版本的Scrapy 0.20。我发现PyCharm有一个很好的Python调试器。我想用它来测试我的Scrapy爬虫。请问有人知道如何做吗? 我已经尝试过的方法 实际上,我尝试将爬虫作为脚本运行。结果,我构建了该脚本。然后,我尝试像这样将我的Scrapy项目添加到...

101得票2回答
Scrapy中使用Selenium处理动态页面

我正在尝试使用scrapy从一个网页中抓取产品信息。我的待爬网页看起来像这样: 以10个产品为一页的product_list页面开始 点击“下一页”按钮会加载下一个包含10个产品的页面(url在两个页面之间不变) 我使用LinkExtractor跟随每个产品链接进入产品页面,并获取所需的所...

101得票11回答
如何在单个Scrapy项目中为不同的爬虫使用不同的管道。

我有一个Scrapy项目,其中包含多个爬虫。 有没有办法定义每个爬虫要使用哪些管道?并非我定义的所有管道都适用于每个爬虫。 谢谢