342得票3回答
使用Python的Requests库发送“User-agent”

我想在使用Python Requests请求网页时,发送一个"User-agent"的值。我不确定是否可以将其作为头文件的一部分发送,例如下面的代码:debug = {'verbose': sys.stderr} user_agent = {'User-agent': 'Mozilla/5.0...

241得票5回答
如何请求谷歌重新爬取我的网站?

有人知道请求谷歌重新抓取网站的方法吗?如果可能的话,这个过程不应该持续几个月。我的网站在谷歌搜索结果中显示了旧的标题,我该如何展示正确的标题和描述?

235得票12回答
查找每个Docker镜像的层和层大小

为了研究目的,我正在尝试爬取公共Docker注册表(https://registry.hub.docker.com/),并找出1)平均图像有多少层以及2)这些层的大小,以了解分布情况。 然而,我研究了API和公共库以及github上的细节,但我找不到任何方法来: - 检索所有公共存储库/镜...

173得票3回答
TypeError:在re.findall()中无法在类似字节的对象上使用字符串模式。

我正试图学习如何从页面自动获取网址。在下面的代码中,我正在尝试获取网页的标题: import urllib.request import re url = "http://www.google.com" regex = r'<title>(,+?)</title>'...

171得票4回答
避免rsync删除未完成的源文件。

我有两台机器,一台名为speed,它拥有快速的互联网连接并正在运行一个爬虫程序,将大量文件下载到磁盘上。另一台机器叫mass,它拥有很多磁盘空间。我希望在文件下载完成后将文件从speed移动到mass。理想情况下,我只需要运行:$ rsync --remove-source-files spe...

163得票9回答
BeautifulSoup和Scrapy爬虫的区别是什么?

我想制作一个网站,展示亚马逊和eBay产品价格的比较。哪个更好并且为什么? 我对BeautifulSoup有一些了解,但不太了解Scrapy爬虫。

145得票19回答
如何使用PHP检测搜索引擎爬虫?

如何使用php检测搜索引擎机器人?

137得票5回答
如何查找网站上的所有链接/页面

是否有可能找到任何给定网站上的所有页面和链接?我想输入一个URL并生成该网站所有链接的目录树。 我查看了HTTrack,但那会下载整个站点,而我只需要目录树。

125得票5回答
如何在Scrapy爬虫中传递用户定义的参数

我想要向Scrapy的爬虫传递一个用户定义的参数,请问有什么建议吗? 我在某个地方读到了一个-a参数,但不知道如何使用它。

120得票8回答
从网站获取URL列表

我正在为客户部署替代网站,但是他们不希望所有旧页面以404结尾。保留旧的URL结构不可能,因为它太丑了。 所以我正在编写一个404处理程序,应该查找请求的旧页面,并对新页面进行永久重定向。问题是,我需要一个所有旧页面URL的列表。 我可以手动完成这个任务,但如果有任何应用可以只通过主页提供...