186得票9回答
如何使用Python的Requests库来模拟浏览器访问,即生成User Agent?

我想从这个网站获取内容。 如果我使用像Firefox或Chrome这样的浏览器,我可以得到我想要的真实网页,但是如果我使用Python的Requests包(或wget命令)来获取它,它会返回一个完全不同的HTML页面。 我以为网站的开发者对此做了一些阻止。 如何使用Python的Requ...

183得票16回答
使用 Python 和 BeautifulSoup 从网页中提取链接

如何使用Python检索网页的链接并复制链接的URL地址?

182得票12回答
问题:Python 3网络爬虫中的HTTP错误403

我想练习网站爬虫,但是一直收到HTTP错误403(它是否认为我是机器人)? 这是我的代码:#import requests import urllib.request from bs4 import BeautifulSoup #from urllib import urlopen impor...

162得票4回答
使用XML包将HTML表格抓取成R数据框

我该如何使用XML包来抓取HTML表格? 以这个维基百科页面上的巴西国家足球队为例。我想在R中读取它,并将"列出巴西对所有FIFA认可的队伍比赛的列表"表格作为数据框。我该怎么做?

158得票10回答
我们能在BeautifulSoup中使用XPath吗?

我正在使用BeautifulSoup来爬取一个URL,以下是我用来查找类为'empformbody'的td标签的代码:import urllib import urllib2 from BeautifulSoup import BeautifulSoup url = "http:...

153得票11回答
如何使用BeautifulSoup只提取可见的网页文本?

基本上,我想使用BeautifulSoup仅获取网页上的可见文本。例如,这个网页是我的测试案例。我主要只想获取正文内容和一些选项卡名称。我尝试了这个SO问题中的建议,但返回了很多我不想要的<script>标签和HTML注释内容。我无法确定函数findAll()所需的参数,以便仅获取...

114得票2回答
从网站获取数据的最佳方法是什么?

我需要从一个网站中提取内容,但是该应用程序没有提供任何应用程序编程接口或其他机制来以编程方式访问这些数据。 我找到了一个有用的第三方工具叫做Import.io,它提供了点击和抓取网页以及构建数据集的功能。唯一的问题是我想将我的数据保留在本地,而且不想订阅任何订阅计划。 这家公司使用什么样的...

103得票6回答
网络爬虫和网络抓取有什么区别?

爬虫和网络抓取有区别吗? 如果有区别,那么收集网页数据以供后续在定制搜索引擎中使用的最佳方法是什么?

101得票2回答
Scrapy中使用Selenium处理动态页面

我正在尝试使用scrapy从一个网页中抓取产品信息。我的待爬网页看起来像这样: 以10个产品为一页的product_list页面开始 点击“下一页”按钮会加载下一个包含10个产品的页面(url在两个页面之间不变) 我使用LinkExtractor跟随每个产品链接进入产品页面,并获取所需的所...

98得票5回答
如何使用Python和BeautifulSoup爬取需要登录的网站?

如果我想要爬取一个需要先登录密码的网站,我该如何使用Python和BeautifulSoup4库开始爬取它?以下是我在不需要登录的网站上所做的操作。from bs4 import BeautifulSoup import urllib2 url = urllib2.urlopen("...