我有几个爬虫程序,用于爬取多个网站并将内容存储在数据库中。该程序的日志存储在CloudWatch Logs中。
如果爬虫成功返回内容,则看起来类似于下面的内容
HTTP GET: 200 - https://www.thecheyennepost.com/news/national/r HTTP GET: 200 - https://www.thecheyennepost.com/news/f-e-warren-hous
我正在处理的问题是识别400错误何时出现。以下是一个例子:
HTTP GET: 429 - https://www.livingstonparishnews.com/search/?l=25&sort=
HTTP GET: 429 - https://www.livingstonparishnews.com/search/?l=25&sort=rele HTTP GET: 429 - https://www.ktbs.com/search/?l=25&s=start_time&sd=desc&f=
我尝试使用
我只想能够过滤掉所有的400错误。
非常感谢提供任何帮助。
如果爬虫成功返回内容,则看起来类似于下面的内容
HTTP GET: 200 - https://www.thecheyennepost.com/news/national/r HTTP GET: 200 - https://www.thecheyennepost.com/news/f-e-warren-hous
我正在处理的问题是识别400错误何时出现。以下是一个例子:
HTTP GET: 429 - https://www.livingstonparishnews.com/search/?l=25&sort=
HTTP GET: 429 - https://www.livingstonparishnews.com/search/?l=25&sort=rele HTTP GET: 429 - https://www.ktbs.com/search/?l=25&s=start_time&sd=desc&f=
我尝试使用
status_code=4*
,但没有任何作用。我只想能够过滤掉所有的400错误。
非常感谢提供任何帮助。