63得票4回答
Python:禁用Selenium Google ChromeDriver中的图片

我是一名有用的助手,可以为您翻译文本。 我花了很多时间搜索这个问题。最终,我结合了许多答案并解决了它。我分享我的答案,如果有人能够编辑或提供更简单的方法,请告诉我们。 1- 在Selenium Google ChromeDriver中禁用图像的答案适用于Java。因此,我们应该在Pytho...

59得票9回答
如何将整个网站归档以便离线查看?

我们实际上已经多次为客户烧录了我们的asp.net网站的静态/存档副本。我们一直使用WebZip,但是我们遇到了无数问题,例如崩溃、下载的页面链接不正确等等。 基本上,我们需要一个应用程序来爬取和下载我们asp.net网站上的所有内容(页面、图片、文档、CSS等),然后处理已下载的页面,以便...

51得票6回答
如何通过编程方式填充使用React构建的输入元素?

我被安排爬取一个用React构建的网站。我正在尝试使用JavaScript注入到页面(无论是Selenium还是移动端的Webview),填写输入字段并提交表单。这在其他网站和技术上都顺利运行,但React似乎很棘手。 以下是样例代码:var email = document.getElem...

48得票3回答
Node.JS:如何将变量传递给异步回调函数?

我相信我的问题基于对node.js异步编程的理解不足,以下是示例: 比如说:我有一个链接列表需要爬取。每当一个异步请求返回时,我想知道它是哪个URL。但由于竞态条件的存在,每个请求的URL都被设置为列表中最后一个值。var links = ['http://google.com', 'htt...

46得票7回答
检测诚实的网络爬虫

我想检测哪些请求来自机器人(服务器端)。 我现在不关心恶意机器人,只关心友好的机器人。我看过一些方法,大多数是将用户代理字符串与诸如“bot”之类的关键字进行匹配。 但这似乎很笨拙、不完整和难以维护。 那么,有没有更可靠的方法? 如果没有,您是否有任何资源可以用来了解所有友好用户代理? 如果...

45得票5回答
如何在网站上找到 sitemap.xml 路径?

我该如何找到网站的sitemap.xml文件? 例如访问stackoverflow/sitemap.xml 会返回404错误。 在stackoverflow/robots.txt中写着: "这其实是不正确的,因为由于某些无可救药的原因,Sitemap路径必须是绝对路径而不是相对路径...

44得票9回答
自动化链接检查器用于系统测试

我经常需要处理容易出现意外错误的旧网站,当逻辑或配置更新时,这些网站就会出现问题。 我没有时间或者系统知识来创建一个Selenium脚本。此外,我不想仅检查特定的用例 - 我想验证站点上的每个链接和页面。 我想创建一个自动化系统测试,可以通过一个站点并检查是否有损坏的链接和崩溃情况。理想情...

43得票5回答
如何在Scrapy中基于URL过滤重复请求

我正在使用Scrapy与CrawlSpider编写一个网站爬虫。 Scrapy提供了一个内置的重复请求过滤器,它基于URL过滤掉重复请求。此外,我还可以使用CrawlSpider的rules成员来过滤请求。 我想要做的是像这样过滤请求:http:://www.abc.com/p/xyz.h...

43得票2回答
Scrapy Python设置用户代理

我尝试通过在项目配置文件中添加一行额外的代码来覆盖我的爬虫的用户代理。以下是代码: [settings] default = myproject.settings USER_AGENT = "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/53...

42得票6回答
如何从一个 .html 页面中提取链接和标题?

对于我的网站,我想要添加一个新的功能。 我希望用户能够上传他的书签备份文件(如果可能的话,来自任何浏览器),以便我可以将它们上传到他们的个人资料中,他们不必手动插入所有书签... 唯一缺失的部分是从上传的文件中提取标题和URL... 有人能给我一个提示从哪里开始或者去哪里阅读吗? 使用搜...