我有一个网站,想要从中提取数据。数据检索非常简单。
它使用HTTP POST获取参数并返回JSON对象。因此,我有一系列查询要执行,然后在特定时间间隔内重复执行以更新数据库。Scrapy适合这种需求吗?还是应该使用其他工具?
实际上,我不需要遵循链接,但我确实需要同时发送多个请求。
我有一个网站,想要从中提取数据。数据检索非常简单。
它使用HTTP POST获取参数并返回JSON对象。因此,我有一系列查询要执行,然后在特定时间间隔内重复执行以更新数据库。Scrapy适合这种需求吗?还是应该使用其他工具?
实际上,我不需要遵循链接,但我确实需要同时发送多个请求。
?a=1&b=2
),类似表单的负载(主体包含a=1&b=2
),或任何其他类型的负载(主体包含某种格式的字符串,如json或xml)。 # Warning: take care of the undefined variables and modules!
def start_requests(self):
payload = {"a": 1, "b": 2}
yield Request(url, self.parse_data, method="POST", body=urllib.urlencode(payload))
def parse_data(self, response):
# do stuff with data...
data = json.loads(response.body)
对于处理请求和获取响应,Scrapy已经足够了。而要解析JSON,只需使用标准库中的json
模块:
import json
data = ...
json_data = json.loads(data)
希望这能帮到你!
根据我对问题的理解,您只是想在特定时间间隔内从网页中提取/抓取数据。Scrapy通常用于爬行。
如果您只想进行http post请求,可以考虑使用python requests库。