Python：使用urllib登录网站

Question

Python：使用urllib登录网站

9

我想登录这个网站：https://www.fitbit.com/login 这是我使用的代码：

import urllib2
import urllib
import cookielib

login_url = 'https://www.fitbit.com/login'
acc_pwd = {'login':'Log In','email':'username','password':'pwd'}
cj = cookielib.CookieJar() ## add cookies
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
opener.addheaders = [('User-agent','Mozilla/5.0 \
                    (compatible; MSIE 6.0; Windows NT 5.1)')]
data = urllib.urlencode(acc_pwd)
try:
    opener.open(login_url,data,10)
    print 'log in - success!'
except:
    print 'log in - times out!', login_url

我使用chrome检查输入框元素，我尝试了许多密钥对，但都没有起作用。有人可以帮我看看这个网站吗？我应该将正确的数据放入我的变量acc_pwd中吗？

非常感谢。

- MacSanhe

2个回答

1

你只用urllib可能会遇到困难。

你很可能需要使用已批准的方法https://wiki.fitbit.com/display/API/Fitbit+API;jsessionid=7D918DE258862E80575153385C02507D，

这将需要一个oauth令牌...这将需要打开一个网页并让用户登录。

- Joran Beasley

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- zmo · Accepted Answer

您忘记了表单的隐藏字段：

<form id="loginForm" class="validate-enabled failure form" method="post" action="https://www.fitbit.com/login" name="login">
    <input type="hidden" value="Log In" name="login">
    <input type="hidden" value="" name="includeWorkflow">
    <input id="loginRedirect" type="hidden" value="" name="redirect">
    <input id="disableThirdPartyLogin" type="hidden" value="false" name="disableThirdPartyLogin">
    <input class="field email" type="text" tabindex="23" name="email" placeholder="E-mail">
    <input class="field password" type="password" tabindex="24" name="password" placeholder="Mot de passe">
</form>

因此，您可能需要更新：

acc_pwd = {'login':'Log In',
           'email':'username',
           'password':'pwd',
           'disableThirdPartyLogin':'false',
           'loginRedirect':'',
           'includeWorkflow':'',
           'login':'Log In'
          }

这可能会被他们的服务检测到。不过，考虑到字段名称disableThirdPartyLogin，我想知道在实际执行POST之前，是否有脏JavaScript捆绑到表单的提交动作中，实际上添加了一个值。您可能需要使用开发人员工具和分析POST值来检查它。

测试看起来好像没有，但JavaScript添加了一些值，可能是从cookie中获取的：

__fp    w686jv_O1ZZztQ7FkK21Ry2MI7JbqWTf
_sourcePage tJvTQfA5dkvGrJMFkFsv6XbX0f6OV1Ndj1zeGcz7OKzA3gkNXMXGnj27D-H9WXS-
disableThirdPartyLogin  false
email   foo@example.org
includeWorkflow 
login   Log In
password    aeou
redirect

以下是我使用 requests（比 urllib 更好的 API）完成此操作的方法：

>>> import requests
>>> import cookielib
>>> jar = cookielib.CookieJar()
>>> login_url = 'https://www.fitbit.com/login'
>>> acc_pwd = {'login':'Log In',
...            'email':'username',
...            'password':'pwd',
...            'disableThirdPartyLogin':'false',
...            'loginRedirect':'',
...            'includeWorkflow':'',
...            'login':'Log In'
...           }
>>> r = requests.get(login_url, cookies=jar)
>>> r = requests.post(login_url, cookies=jar, data=acc_pwd)

不要忘记使用get方法进入登录页面，以填充您的cookies jar！

最后，我无法再为您提供帮助，因为我在fitbit.com上没有有效账户，也不需要或想要一个。所以我只能在我的测试中访问登录失败页面。

编辑：

要解析输出，您可以使用：

>>> from lxml import etree
>>> p = etree.HTML(r.text)

例如，要获取错误消息：

>>> p.xpath('//ul[@class="errorList"]/li/text()')
['Lutilisateur nexiste pas ou le mot de passe est incorrect.']

资源:

lxml: http://lxml.de
requests: http://python-requests.org

它们都在pypi上：

pip install lxml requests

HTH