74得票5回答
Python - 使用 Python 3 urllib 发送 POST 请求

我试图向以下页面发起POST请求:http://search.cpsa.ca/PhysicianSearch为了模拟点击“搜索”按钮而不填写表单,从而向页面添加数据。我通过在Chrome开发者工具的网络选项卡下查看按钮并点击获取了POST头信息。我发布这篇文章的原因是我认为我可能没有获取正确的...

74得票6回答
我该用什么来打开一个URL,而不是使用urllib3中的urlopen?

我想写一个像以下代码一样的程序:from bs4 import BeautifulSoup import urllib2 url = 'http://www.thefamouspeople.com/singers.php' html = urllib2.urlopen(url) soup =...

71得票4回答
点击Scrapy中的按钮

我正在使用Scrapy爬取网页。我需要的一些信息只会在点击某个按钮后才会出现(当然,在单击后也会在HTML代码中显示)。 我发现Scrapy可以处理表单(例如登录),如此处所示。但问题是没有表格可供填写,所以这不完全是我需要的。 我该如何简单地单击一个按钮,然后显示我需要的信息呢? 我是...

69得票9回答
如何在Python 3中打印异常?

目前,我在except Exception:子句中捕获异常,并执行print(exception)。结果提供的信息非常有限,因为它总是打印<class 'Exception'>。我知道这在Python 2中可以工作,但在Python 3中应该如何处理?

68得票5回答
使用BeautifulSoup和Python获取meta标签内容属性

我正在尝试使用Python和Beautiful Soup提取以下标签中的内容部分: <meta property="og:title" content="Super Fun Event 1" /> <meta property="og:url" content="http:...

66得票4回答
使用BeautifulSoup提取不带标签的文本

我的网页看起来像这样:<p> <strong class="offender">YOB:</strong> 1987<br/> <strong class="offender">RACE:</strong> WHI...

66得票6回答
如何管理“池”中的PhantomJS实例

我正在计划一个内部使用的 Web 服务,它接收一个参数,即 URL,并返回表示该 URL 的 DOM 经过解析后的 HTML。通过“解析”,我指的是 Web 服务将首先获取该 URL 上的页面,然后使用 PhantomJS 来“渲染”页面,最后在执行所有 DHTML、AJAX 调用等之后返回结...

66得票5回答
爬取整个网站

我正在寻找一个程序来爬取并下载整个企业网站。该网站由已停止工作的CMS驱动,修复它很昂贵而且我们能够重新开发网站。因此,我只想获取整个网站作为普通HTML / CSS / 图像内容,并根据需要进行小的更新,直到新网站出现。有任何建议吗?

66得票9回答
使用Node.js实时抓取网页

使用Node.js爬取网站内容的好方法是什么?我想构建一个非常快速的东西,可以以kayak.com的方式执行搜索,其中一个查询被分派到几个不同的站点,结果被爬取,并在可用时返回给客户端。 假设此脚本应仅以JSON格式提供结果,我们可以直接在浏览器中或在另一个Web应用程序中处理它们。 一些...

65得票10回答
网页抓取 - 如何识别网页上的主要内容

假设有一篇新闻文章网页(来自任何主要新闻来源,例如时代杂志或彭博社),我想要识别该页面上的主要文章内容并排除其他杂项元素,如广告、菜单、侧边栏和用户评论。 有什么通用的方法可以在大多数主要新闻网站上实现这一目标? 有哪些数据挖掘的好工具或库?(最好是基于Python)