Scrapy和Django框架都是Python的独立最佳框架,可用于构建爬虫和Web应用程序,并且代码量较少。但是,每当您想创建一个爬虫时,您总是需要生成新的代码文件并编写相同的代码(尽管有所变化)。我正在尝试集成两者。但是卡在了一个地方,我需要发送状态200_OK以表示爬虫成功运行,并且同时爬虫继续运行,直到完成后将数据保存到数据库。
虽然我知道scrapyd已经提供了API,但我想使它更加通用。让您无需编写多个文件即可创建爬虫。我认为Crawlrunner会有所帮助,因此也尝试了这个https://docs.scrapy.org/en/latest/topics/practices.html,还尝试了这个Easiest way to run scrapy crawler so it doesn't block the script,但它给我报错了,错误信息为
尽管我从Rest Framework中获得了响应,但是由于此错误,爬虫无法运行,这是否意味着我需要切换到主线程?我正在使用简单的代码进行操作。
虽然我知道scrapyd已经提供了API,但我想使它更加通用。让您无需编写多个文件即可创建爬虫。我认为Crawlrunner会有所帮助,因此也尝试了这个https://docs.scrapy.org/en/latest/topics/practices.html,还尝试了这个Easiest way to run scrapy crawler so it doesn't block the script,但它给我报错了,错误信息为
builtins.ValueError: signal only works in main thread
。尽管我从Rest Framework中获得了响应,但是由于此错误,爬虫无法运行,这是否意味着我需要切换到主线程?我正在使用简单的代码进行操作。
spider = GeneralSpider(pk)
runner = CrawlerRunner()
d = runner.crawl(GeneralSpider, pk)
d.addBoth(lambda _: reactor.stop())
reactor.run()