我需要爬取高达10,000个网站
由于每个网站都有自己独特的HTML结构,需要自己的XPATH逻辑和创建委托Request
对象的逻辑。我想为每个网站创建一个唯一的爬虫。
但这是最好的方式吗?也许我应该有一个单一的爬虫,将所有10,000个网站添加到start_urls
和allowed_domains
中,编写网络爬虫库并开始进行爬取?
哪种方法是最佳实践?
class MainSpider(object):
# Do things here
def get_links(url)
return links
spider_mysite.py
from main_spider import MainSpider
class SpiderMysite(MainSpider):
def get_data(links):
for link in links:
# Do more stuff.