最新 'web-scraping' 问题 - 第3页

关联标签

10得票4回答

我想将一个网站下载为pdf文件，目前能够成功下载，但它只会默认下载到我的下载文件夹中，我希望它能够下载到指定的路径下。import json from selenium import webdriver appState = { "recentDestinations": [ ...

9得票1回答

给定以下代码： <html> <body> <div class="category1" id="foo"> <div class="category2" id="bar"> <div class="c...

54得票6回答

我不希望同时爬取并被阻止。我想每秒发送一个请求。

24得票1回答

我知道有一些网页 PhantomJS/CasperJS 打不开，我想知道这个网页是否其中之一：https://maizepages.umich.edu。CasperJS 给出了一个错误提示：PhantomJS failed to open page status=fail。我尝试忽略 SS...

17得票1回答

我目前有一个脚本可以登录到网站，如果网站上的按钮当前未被点击，我希望脚本可以点击该按钮。以下是该按钮的信息：当按钮已经激活时：<p class="toast_btn"> <a class="button grey toast track-click active"...

14得票3回答

我正在运行一个这门课程网站的爬虫，想知道在使用beautifulsoup将页面解析后是否有更快的方法来爬取页面。花费的时间比我预期的要长得多。有什么技巧吗？from selenium import webdriver from selenium.webdriver.common.keys i...

10得票1回答

我正在尝试使用R从此网站中爬取数据：http://www.soccer24.com/kosovo/superliga/results/#我可以执行以下操作：library(rvest) doc <- html("http://www.soccer24.com/kosovo/superli...

11得票4回答

我用Python编写了一个脚本，可以到达一个网站上，每个类别都有可用的物品名称。我的下面的脚本可以从大多数链接（通过漫游类别链接然后子类别链接生成）中获取产品名称。该脚本可以解析单击旁边带有+符号的每个类别下面可见的子类别链接，然后从目标页面解析所有产品名称。这是其中之一目标页面。 ...

8得票2回答

谷歌有一个API可以下载搜索建议： https://www.google.com/support/enterprise/static/gsa/docs/admin/70/gsa_doc_set/xml_reference/query_suggestion.html 不幸的是，据我所知，这些...

7得票3回答

我想知道Mozenda屏幕抓取器是如何编码的？ http://www.mozenda.com/screen-scraper 我展示了一个浏览器，用户可以选择要抓取的字段，然后它会创建一个爬行脚本。对于我来说，生成爬行脚本部分很清楚，我想知道它是否记录了用户在浏览器中执行的操作。我想...