30得票2回答
如何强制Scrapy爬取重复的URL?

我正在学习一个网页爬取框架Scrapy。 默认情况下,它不会爬取重复的url或已经爬过的url。 如何使Scrapy爬取重复的url或已经爬过的url? 我试图在互联网上寻找相关帮助,但没有找到合适的答案。 我在Scrapy - Spider crawls duplicate urls中...

29得票3回答
jQuery中find和filter的区别

我正在从维基页面获取数据。为此,我使用了php和jquery的组合。首先,我使用php中的curl来获取页面内容并输出内容。文件名为content.php:$url = $_GET['url']; $url = trim($url," "); $url = urldecode($url); $...

29得票4回答
我需要一个强大的网络爬虫库。

我需要一款强大的网络爬虫库,用于从网页中挖掘内容。无论是付费还是免费的都可以。请为我推荐一个库或更好的方式来挖掘数据并存储在我喜欢的数据库中。我已经搜索过了,但没有找到任何好的解决方案。我需要专家的好建议。请帮帮我。

27得票5回答
Python网络爬虫和获取HTML源代码

我的兄弟想要我使用Python(自学)编写网络爬虫,我了解 C++、Java 和一些 html。我正在使用 2.7 版本并阅读 Python 库,但遇到一些问题: httplib.HTTPConnection和request 的概念对我来说是新的,我不清楚它是否下载类似 cookie 或实...

27得票2回答
如何在爬虫中动态生成起始网址?

我正在爬取一个可能包含大量start_urls的网站,例如:http://www.a.com/list_1_2_3.htm 我希望在爬虫时使用类似于 [list_\d+_\d+_\d+\.htm] 这样的格式填充start_urls,并从类似于 [node_\d+\.htm] 的URL中提取数...

27得票8回答
创建网络爬虫时,可以使用哪些技术来检测所谓的“黑洞”(蜘蛛陷阱)?

创建网页爬虫时,您需要设计某种系统来收集链接并将它们添加到队列中。其中一些(如果不是大部分)链接将是动态的,看起来不同,但实际上无任何价值,因为它们是专门用来欺骗爬虫的。 例如,我们告诉我们的爬虫通过输入初始的查找URL来爬取域名evil.com。假设我们首先让它爬取主页evil.com/i...

27得票8回答
维基百科文本下载

我想要下载完整的维基百科文本用于我的大学项目。我需要编写自己的爬虫程序来进行下载还是有公共数据集可以在线获取维基百科? 为了简单介绍我的项目,我想查找几个我感兴趣的文章中的有趣单词。但是为了找这些有趣的单词,我计划应用tf/idf来计算每个单词的词频并选取高频单词。但是为了计算tf,我需要知...

27得票4回答
使用Python/Selenium保存完整网页(包括CSS和图片)

我正在使用Python/Selenium向在线数据库提交基因序列,并希望保存返回的完整结果页面。以下是使我获得想要的结果的代码:from selenium import webdriver URL = 'https://blast.ncbi.nlm.nih.gov/Blast.cgi?PRO...

26得票5回答
基于好友信息如何爬取Facebook?

我是一名研究复杂网络的研究生,目前正在开展一个分析Facebook用户之间联系的项目。是否可能基于好友信息编写一个Facebook爬虫? 我搜索了一些资料,但迄今为止并没有找到有用的信息。看起来Facebook并不喜欢这样的活动。我可以依靠Facebook API吗? 更新(2010年1月...

26得票3回答
如何安全地检查节点是否为空?(Symfony 2爬虫)

当我试图获取页面上不存在的某些内容时,会出现以下错误:The current node list is empty. 500 Internal Server Error - InvalidArgumentException 我该如何安全地检查内容是否存在?以下是一些不起作用的示例:if($c...