代理+ Selenium + PhantomJS 无法更改用户代理

10

当使用PhantomJS代理时,默认使用Python用户代理。

运行:Python 3.5.1在Ubuntu 14.04上。

service_args = []

if self.proxy:
    service_args.extend([
        '--proxy={}:{}'.format(self.proxy.host, self.proxy.port),
        '--proxy-type={}'.format(self.proxy.proto),
    ])

    if self.proxy.username and self.proxy.password:
        service_args.append(
            '--proxy-auth={}:{}'.format(self.proxy.username, self.proxy.password)
        )

dcap = dict(DesiredCapabilities.PHANTOMJS)
dcap["phantomjs.page.settings.userAgent"] = (
    "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/53 "
    "(KHTML, like Gecko) Chrome/15.0.87"
)

self.webdriver = webdriver.PhantomJS(service_args=service_args, desired_capabilities=dcap)

错误:

消息:错误消息=>“无法找到具有css选择器'#navcnt td.cur'的元素”,由请求引起=> {"headers":{"Accept":"application/json","Accept-Encoding":"identity","Connection":"close","Content-Length":"105","Content-Type":"application/json;charset=UTF-8","Host":"127.0.0.1:39281","User-Agent":"Python-urllib/3.5"}...

在类似的问题中,有结论认为该问题是由代理提供者在服务器级别上设置用户代理所致,但我怀疑这并非是本例的原因,因为我可以使用Chrome和代理来修改它。

1个回答

1
这是我所采用的方法: 在我的情况下,我更加仔细地研究了PhantomJS驱动程序的功能:
dcap = dict(DesiredCapabilities.PHANTOMJS)
dcap["phantomjs.page.settings.userAgent"] = "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/53 (KHTML, like Gecko) Chrome/15.0.87"

service_args = [
    '--proxy=5.135.176.41:3123',
    '--proxy-type=http',
]
phantom = webdriver.PhantomJS(js_path, desired_capabilities=dcap, service_args =service_args)
print(phantom.capabilities)

输出结果为:

{'databaseEnabled': False, 'handlesAlerts': False, 'rotatable': False, 'browserConnectionEnabled': False, 'browserName': 'phantomjs', 'takesScreenshot': True, 'nativeEvents': True, 'locationContextEnabled': False, 'phantomjs.page.settings.userAgent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/53 (KHTML, like Gecko) Chrome/15.0.87', 'platform': 'linux-unknown-64bit', 'version': '2.1.1', 'applicationCacheEnabled': False, 'driverName': 'ghostdriver', 'webStorageEnabled': False, 'javascriptEnabled': True, 'cssSelectorsEnabled': True, 'proxy': {'proxyType': 'direct'}, 'acceptSslCerts': False, 'driverVersion': '1.2.0'}

这意味着userAgent实际上被正确设置了('phantomjs.page.settings.userAgent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/53 (KHTML, like Gecko) Chrome/15.0.87'),但是它以某种方式没有采用我使用service-args设置的代理。手动操作capabilities就像这样非常好用:
dcap = dict(DesiredCapabilities.PHANTOMJS)
dcap["phantomjs.page.settings.userAgent"] = "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/53 (KHTML, like Gecko) Chrome/15.0.87"

phantom = webdriver.PhantomJS(js_path, desired_capabilities=dcap)

phantom.capabilities["acceptSslCerts"] = True
phantom.capabilities["proxy"] = {"proxy": "5.135.176.41:3123",
                                 "proxy-type": "http"}
max_wait = 20

phantom.set_window_size(1024, 768)
phantom.set_page_load_timeout(max_wait)
phantom.set_script_timeout(max_wait)
phantom.get(url)

谢谢这个问题,我一直在研究使用PhantomJS代理,这个问题让我找到了正确的方向。希望这可以帮到你!


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接