655得票19回答
如何按类名查找元素

我在使用BeautifulSoup解析HTML元素中的"class"属性时遇到了问题。 代码如下:soup = BeautifulSoup(sdata) mydivs = soup.findAll('div') for div in mydivs: if (div["class"] ...

378得票3回答
无头浏览器和爬虫 - 解决方案

我试图列出一些浏览器自动化测试套件和能够进行抓取的无头浏览器平台的可能解决方案列表。 浏览器测试/抓取: Selenium - 跨语言 浏览器自动化的旗舰产品,提供多个编程语言绑定,如Python、Ruby、JavaScript、C#、Haskell等。Firefox的IDE(作为扩展程序...

339得票26回答
如何防止网站被爬取?

我有一个相当大的音乐网站,拥有庞大的艺术家数据库。 我注意到其他音乐网站正在抓取我们网站的数据(我在某些地方输入虚假的艺术家名称,然后进行谷歌搜索)。 如何防止屏幕抓取? 这是否可能? 答: 防范网站屏幕抓取并非易事,但可以采取以下措施: - 添加robots.txt文件以告知搜索引擎哪...

284得票27回答
爬虫:针对http://en.wikipedia.org的SSL证书验证失败错误

我正在练习《Python网络数据采集》中的代码,但我一直遇到这个证书问题: I'm practicing the code from 'Web Scraping with Python', and I keep having this certificate problem: from ur...

278得票18回答
如何在Python中爬取包含动态内容(由JavaScript创建)的页面?

我正在尝试开发一个简单的网络爬虫。我想提取没有HTML标记的纯文本。我的代码可以处理纯静态的HTML,但是当内容是由嵌入在页面中的JavaScript生成时,就无法正常工作。 特别是,当我使用urllib2.urlopen(request)来读取页面内容时,它不会显示由JavaScript代...

274得票7回答
如何将变量传递给 evaluate 函数?

我正在尝试将一个变量传递到 Puppeteer 中的 page.evaluate() 函数中,但是当我使用以下非常简化的示例时,变量 evalVar 是未定义的。 我找不到任何可构建的示例,因此我需要帮助将该变量传递到page.evaluate()函数中,以便我可以在内部使用它。const p...

264得票6回答
如何获取任何URL或网页的Google缓存年龄?

在我的项目中,我需要将Google缓存的年龄作为重要信息添加。我试图搜索Google缓存年龄的来源,也就是自Google上次重新索引页面以来的天数。 我可以在哪里获得Google缓存年龄信息?

209得票3回答
如何使用Java高效解析HTML?

我在工作中需要大量进行HTML解析。目前,我正在使用HtmlUnit无头浏览器进行解析和浏览器自动化。 现在,我希望将这两个任务分开。 我想使用一个轻量级的HTML解析器,因为在HtmlUnit中,首先加载页面,然后获取源代码并解析它需要很长时间。 我想知道哪个HTML解析器可以高效地解析HT...

204得票18回答
如何使用Python保存已知URL地址的图像到本地?

我知道一个互联网上的图片URL。例如,http://www.digimouth.com/news/media/2011/09/google-logo.jpg,其中包含Google的标志。 现在,我该如何使用Python下载这张图片而不用实际打开浏览器中的URL并手动保存文件?

197得票10回答
使用Python进行网络爬虫

我想从一个网站获取每日的日出/日落时间。使用Python可以爬取网页内容吗?需要用到哪些模块?是否有任何可用的教程? 你可以使用Python中的Web Scraping技术来获取网站的日出/日落时间。有很多模块可以用来进行网页解析和抓取,如BeautifulSoup、Scrapy和Reque...