我正在尝试使用 StubHub API 爬取一些销售数据。这里是一个示例数据:
https://sell.stubhub.com/sellapi/event/4236070/section/null/seatmapdata
你会注意到,如果你没有登录stubhub.com,访问该网址将不起作用。 你需要先登录。
一旦我通过浏览器登录,我在新标签页中打开要爬取的URL,然后使用以下命令来检索已爬取的数据:
r = requests.get('https://sell.stubhub.com/sellapi/event/4236070/section/null/seatmapdata')
然而,一旦浏览器会话在十分钟后过期,我就会收到这个错误:
<FormErrors>
<FormField>User Auth Check</FormField>
<ErrorMessage>
Either is not active or the session might have expired. Please login again.
</ErrorMessage>
我认为我需要通过cookie来实现会话ID以保持我的身份验证的有效性。
对于从未做过这种事情的人来说,Requests库的文档非常糟糕,所以我希望你们能够帮助我。
Requests提供的示例是:
s = requests.Session()
s.get('http://httpbin.org/cookies/set/sessioncookie/123456789')
r = s.get("http://httpbin.org/cookies")
print r.text
# '{"cookies": {"sessioncookie": "123456789"}}'
老实说,我对那个一点也不懂。如何在POST请求之间保留Cookie?