Python Requests 运行 GET 请求中的 JS 文件

4

目标

使用Python请求等方式登录此网站(https://www.reliant.com)。(我知道可以使用Selenium或PhantomJS之类的方法来完成,但我更倾向于不这样做。)

问题

在登录过程中,有几个重定向,其中会传递“会话ID”类型的参数。其中大部分我都能获取到,但有一个叫做dtPC的参数似乎是从访问页面时获得的cookie中获取的。据我所知,该cookie起源于此JS文件(https://www.reliant.com/ruxitagentjs_ICA2QSVfhjqrux_10175190917092722.js)。该网址是浏览器在主网址的初始GET请求之后执行的下一个GET请求。到目前为止,我尝试过的所有方法都未能获取到该cookie。

迄今为止的代码

from requests_html import HTMLSession

url=r'https://www.reliant.com'
url2=r'https://www.reliant.com/ruxitagentjs_ICA2QSVfhjqrux_10175190917092722.js'
headers={
'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
 'Accept-Encoding': 'gzip, deflate, br',
 'Accept-Language': 'en-US,en;q=0.9',
 'Cache-Control': 'max-age=0',
 'Connection': 'keep-alive',
 'Host': 'www.reliant.com',
 'Sec-Fetch-Mode': 'navigate',
 'Sec-Fetch-Site': 'none',
 'Sec-Fetch-User': '?1',
 'Upgrade-Insecure-Requests': '1',
 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.3'
}

headers2={
'Referer': 'https://www.reliant.com',
 'Sec-Fetch-Mode': 'no-cors',
 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36'
}

s=HTMLSession()
r=s.get(url,headers=headers)
js=s.get(url2,headers=headers2).text

r.html.render() #works but doesn't get the cookie
r.html.render(script=js) #fails on Network error
1个回答

5

好的,我破解了这个问题,虽然一路上很艰难。我不知道为什么dtPC没有像应该的那样出现在s.cookies中,但我没有正确使用script关键字。显然,你传递给它的任何JS都会在其他所有内容呈现后执行,就像你在浏览器上打开控制台并将其粘贴到那里。当我在Chrome中实际尝试时,我得到了一些错误。最终,我意识到我可以运行一个简单的JS脚本来返回由其他JS生成的cookies。

s=HTMLSession()
r=s.get(url,headers=headers)
print(r.status_code)

c=r.html.render(script='document.cookie') 

c=urllib.parse.unquote(c)
c=[x.split('=') for x in c.split(';')]
c={x[0]:x[1] for x in c}
print(c)

到这一步,c 将会是一个字典,其中 'dtPC' 为键,对应其值。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接