得票数最多 'web-crawler' 问题

关联标签

342得票3回答

使用Python的Requests库发送“User-agent”

我想在使用Python Requests请求网页时，发送一个"User-agent"的值。我不确定是否可以将其作为头文件的一部分发送，例如下面的代码：debug = {'verbose': sys.stderr} user_agent = {'User-agent': 'Mozilla/5.0...

pythonweb-crawlerpython-requests

241得票5回答

如何请求谷歌重新爬取我的网站？

有人知道请求谷歌重新抓取网站的方法吗？如果可能的话，这个过程不应该持续几个月。我的网站在谷歌搜索结果中显示了旧的标题，我该如何展示正确的标题和描述？

seoweb-crawler

235得票12回答

查找每个Docker镜像的层和层大小

为了研究目的，我正在尝试爬取公共Docker注册表（https://registry.hub.docker.com/），并找出1）平均图像有多少层以及2）这些层的大小，以了解分布情况。然而，我研究了API和公共库以及github上的细节，但我找不到任何方法来： - 检索所有公共存储库/镜...

dockerweb-crawlerdocker-image

173得票3回答

TypeError：在re.findall()中无法在类似字节的对象上使用字符串模式。

我正试图学习如何从页面自动获取网址。在下面的代码中，我正在尝试获取网页的标题： import urllib.request import re url = "http://www.google.com" regex = r'<title>(,+?)</title>'...

pythonpython-3.xweb-crawler

171得票4回答

避免rsync删除未完成的源文件。

我有两台机器，一台名为speed，它拥有快速的互联网连接并正在运行一个爬虫程序，将大量文件下载到磁盘上。另一台机器叫mass，它拥有很多磁盘空间。我希望在文件下载完成后将文件从speed移动到mass。理想情况下，我只需要运行：$ rsync --remove-source-files spe...

storageweb-crawlerrsync

163得票9回答