得票数最多 'web-scraping' 问题 - 第4页

关联标签

74得票5回答

Python - 使用 Python 3 urllib 发送 POST 请求

我试图向以下页面发起POST请求：http://search.cpsa.ca/PhysicianSearch为了模拟点击“搜索”按钮而不填写表单，从而向页面添加数据。我通过在Chrome开发者工具的网络选项卡下查看按钮并点击获取了POST头信息。我发布这篇文章的原因是我认为我可能没有获取正确的...

pythonhttppostweb-scrapingurllib

74得票6回答

我该用什么来打开一个URL，而不是使用urllib3中的urlopen？

我想写一个像以下代码一样的程序：from bs4 import BeautifulSoup import urllib2 url = 'http://www.thefamouspeople.com/singers.php' html = urllib2.urlopen(url) soup =...

pythonweb-scrapingbeautifulsoupurllib3

71得票4回答

点击Scrapy中的按钮

我正在使用Scrapy爬取网页。我需要的一些信息只会在点击某个按钮后才会出现（当然，在单击后也会在HTML代码中显示）。我发现Scrapy可以处理表单（例如登录），如此处所示。但问题是没有表格可供填写，所以这不完全是我需要的。我该如何简单地单击一个按钮，然后显示我需要的信息呢？我是...

pythonweb-crawlerweb-scrapingscrapy

69得票9回答

如何在Python 3中打印异常？

目前，我在except Exception:子句中捕获异常，并执行print(exception)。结果提供的信息非常有限，因为它总是打印<class 'Exception'>。我知道这在Python 2中可以工作，但在Python 3中应该如何处理？

pythonpython-3.xexceptionweb-scraping

68得票5回答

使用BeautifulSoup和Python获取meta标签内容属性

我正在尝试使用Python和Beautiful Soup提取以下标签中的内容部分： <meta property="og:title" content="Super Fun Event 1" /> <meta property="og:url" content="http:...

pythonhtmlweb-scrapingbeautifulsoup

66得票4回答

使用BeautifulSoup提取不带标签的文本

我的网页看起来像这样： YOB: 1987 RACE: WHI...

pythonweb-scrapingbeautifulsoup

66得票6回答

如何管理“池”中的PhantomJS实例

我正在计划一个内部使用的 Web 服务，它接收一个参数，即 URL，并返回表示该 URL 的 DOM 经过解析后的 HTML。通过“解析”，我指的是 Web 服务将首先获取该 URL 上的页面，然后使用 PhantomJS 来“渲染”页面，最后在执行所有 DHTML、AJAX 调用等之后返回结...

node.jsweb-scrapingphantomjsjsdom

66得票5回答

爬取整个网站

我正在寻找一个程序来爬取并下载整个企业网站。该网站由已停止工作的CMS驱动，修复它很昂贵而且我们能够重新开发网站。因此，我只想获取整个网站作为普通HTML / CSS / 图像内容，并根据需要进行小的更新，直到新网站出现。有任何建议吗？

htmlweb-scraping

66得票9回答

使用Node.js实时抓取网页

使用Node.js爬取网站内容的好方法是什么？我想构建一个非常快速的东西，可以以kayak.com的方式执行搜索，其中一个查询被分派到几个不同的站点，结果被爬取，并在可用时返回给客户端。假设此脚本应仅以JSON格式提供结果，我们可以直接在浏览器中或在另一个Web应用程序中处理它们。一些...

javascriptjquerynode.jsscreen-scrapingweb-scraping

65得票10回答

网页抓取 - 如何识别网页上的主要内容

假设有一篇新闻文章网页（来自任何主要新闻来源，例如时代杂志或彭博社），我想要识别该页面上的主要文章内容并排除其他杂项元素，如广告、菜单、侧边栏和用户评论。有什么通用的方法可以在大多数主要新闻网站上实现这一目标? 有哪些数据挖掘的好工具或库？（最好是基于Python）

pythonweb-scrapinghtml-parsinghtml