Scrapy链接提取器 - 限制每个URL爬取的页面数量

7
我正在尝试在Scrapy的CrawlSpider中限制每个URL爬取的页面数量。我有一个start_urls列表,希望对正在爬取的每个URL设置一个页面数量限制。一旦达到限制,蜘蛛应该移动到下一个start_url。
我知道有DEPTH_LIMIT参数可以设置,但这不是我要找的。
任何帮助都将是有用的。
以下是我目前的代码:
class MySpider(CrawlSpider):
    name = 'test'
    allowed_domains = domainvarwebsite
    start_urls = httpvarwebsite

    rules = [Rule(LinkExtractor(),
             callback='parse_item',
             follow=True)
            ]

    def parse_item(self, response):
        #here I parse and yield the items I am interested in.

编辑

我尝试了实现这个,但是我收到了 exceptions.SyntaxError: invalid syntax (filter_domain.py, line 20) 。有什么想法吗?

再次感谢。

filter_domain.py

import urlparse
from collections import defaultdict
from scrapy.exceptions import IgnoreRequest

class FilterDomainbyLimitMiddleware(object):
def __init__(self, domains_to_filter):
    self.domains_to_filter = domains_to_filter
    self.counter = defaultdict(int)

@classmethod
def from_crawler(cls, crawler):
    settings = crawler.settings
    spider_name = crawler.spider.name
    max_to_filter = settings.get('MAX_TO_FILTER')
    o = cls(max_to_filter)
    return o

def process_request(self, request, spider):
    parsed_url = urlparse.urlparse(request.url)
    (LINE 20:) if self.counter.get(parsed_url.netloc, 0) < self.max_to_filter[parsed_url.netloc]):
        self.counter[parsed_url.netloc] += 1
    else:
        raise IgnoreRequest()

settings.py

MAX_TO_FILTER = 30

DOWNLOADER_MIDDLEWARES = {
    'myproject.filter_domain.FilterDomainbyLimitMiddleware' :400,

}

第20行的冒号前有一个领先的 ')'。 - Valdir Stumm Junior
1个回答

3

Scrapy没有直接提供这个功能,但您可以创建自定义中间件,例如:

import urlparse
from collections import defaultdict
from scrapy.exceptions import IgnoreRequest

class FilterDomainbyLimitMiddleware(object):
    def __init__(self, domains_to_filter):
        self.domains_to_filter = domains_to_filter
        self.counter = defaultdict(int)

    @classmethod
    def from_crawler(cls, crawler):
        settings = crawler.settings
        spider_name = crawler.spider.name
        domains_to_filter = settings.get('DOMAINS_TO_FILTER')
        o = cls(domains_to_filter)
        return o

    def process_request(self, request, spider):
        parsed_url = urlparse.urlparse(request.url)
        if parsed_url.netloc in self.domains_to_filter:
            if self.counter.get(parsed_url.netloc, 0) < self.domains_to_filter[parsed_url.netloc]):
                self.counter[parsed_url.netloc] += 1
            else:
                raise IgnoreRequest()

在设置中声明DOMAINS_TO_FILTER,例如:

DOMAINS_TO_FILTER = {
    'mydomain': 5
}

只接受来自该域的5个请求。同时,请记得按照这里所指定的方式在设置中启用中间件。


太棒了!我该如何修改你的代码,以便无论是哪个域名,都可以设置固定数量的请求?这样我只需要在settings.py中写上MAX_REQUESTS = 5就可以了。 - alex_unio
删除 process_request 中的第一个 if。 - eLRuLL
我尝试修改它,但出现了错误。我已经编辑了我的问题以展示我正在使用的当前代码。 - alex_unio

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接