46得票2回答
reCAPTCHA 3如何知道我在使用Selenium/chromedriver?

我想知道 reCAPTCHA v3 是如何工作的,特别是浏览器指纹技术。 当我通过Selenium/chromedriver启动Chrome并测试reCAPTCHA 3 (https://recaptcha-demo.appspot.com/recaptcha-v3-request-score...

46得票6回答
使用BeautifulSoup将表格抓取到数据框中

我正在尝试从硬币目录中抓取数据。 其中一页是需要抓取的页面。我需要将这些数据抓取到Dataframe中。 到目前为止,我有以下代码: import bs4 as bs import urllib.request import pandas as pd source = urllib.r...

45得票14回答
Python - 从谷歌图像搜索下载图片?

我想使用Python下载谷歌图片搜索中的所有图片。 我正在使用的代码似乎有时候存在一些问题。我的代码是:import os import sys import time from urllib import FancyURLopener import urllib2 import simple...

45得票4回答
通过Selenium点击链接

我正在尝试使用Selenium进行网页抓取。我的问题非常简单:如何查找链接并点击它?例如:以下是我要网页抓取的HTML: <td bgcolor="#E7EFF9"> <a href="javascript:selectDodasaDetdasdasy(22001164...

44得票2回答
Python如何跟随重定向并下载页面?

我有以下的Python脚本,它运行得非常好。import urllib2 url = 'http://abc.com' # write the url here usock = urllib2.urlopen(url) data = usock.read() usock.close() ...

44得票9回答
如何从Python调用JavaScript函数?

我正在开展一个网络抓取项目。我正在处理的其中一个网站有来自JavaScript的数据。 在我的早期问题中,有人建议我可以直接从Python调用JavaScript,但我不确定如何实现。 例如:如果有一个JavaScript函数被定义为:add_2(var,var2) 我应该如何从Pyth...

43得票3回答
美丽汤(Beautiful Soup)使用类“Contains”还是正则表达式?

如果我的类名经常不同,例如:listing-col-line-3-11 dpt 41 listing-col-block-1-22 dpt 41 listing-col-line-4-13 CWK 12 通常我可以做到:for EachPart in soup.find_all("div", ...

42得票10回答
TypeError: 类型为 'Response' 的对象没有长度。

当我尝试执行这段代码时BeautifulSoup(html, ...) 它会给出错误信息 类型错误:'Response'对象没有len()方法 我尝试将实际的HTML作为参数传递,但仍然无法正常工作。import requests url = 'http://vineoftheday.c...

42得票6回答
在使用Python 3的requests.get方法获取数据之前,需要等待页面加载。

我有一个页面,需要获取其源代码并使用BS4进行解析,但是该页面的中间部分需要1秒钟(可能更短)才能加载内容,并且requests.get在该部分加载之前就已捕获了页面的源代码,我该如何在获取数据之前等待一秒钟?r = requests.get(URL + self.search, header...

42得票3回答
C#(.NET)的无头浏览器是什么?

我曾是一名Python开发者,正在构建一个图形用户界面网络爬虫应用程序。最近我决定迁移到.NET框架,并使用C#编写同样的应用程序(这个决定不是我做的)。 在Python中,我使用了Mechanize库。但是,在.NET中似乎找不到类似的东西。我需要一个可以运行在无头模式下的浏览器,具有填充...