9得票6回答
解析复杂的HTML表格

我正在尝试解析大学提供的课程表,以便将信息导入某种日历。这里可以看到课程表的示例: http://www.asw-berufsakademie.de/fileadmin/download/download/Sked%20Stundenplan/WIA13-7.%20Block.html 根据...

48得票4回答
使用Python-Scrapy爬取动态内容

免责声明:我在StackOverflow上看到了许多类似的帖子,并尝试按照他们的方式进行操作,但是它们似乎在这个网站上无法正常工作。 我正在使用Python-Scrapy从koovs.com获取数据。 然而,我无法获取动态生成的产品尺寸。具体来说,如果有人能指导我如何从此链接中的下拉菜单中...

14得票3回答
加速BeautifulSoup

我正在运行一个这门课程网站的爬虫,想知道在使用beautifulsoup将页面解析后是否有更快的方法来爬取页面。花费的时间比我预期的要长得多。 有什么技巧吗?from selenium import webdriver from selenium.webdriver.common.keys i...

11得票2回答
Facebook抓取器无法加载动态Meta标签。

我正在使用以下函数(GWT)动态创建HTML元标记。它需要1秒钟才能在DOM上呈现。它的工作很好,除了Facebook之外。当我从我的网站分享链接时,爬虫获取的是HTML中的meta标签:none。我该怎么解决?/** * Include the HTML attributes: title,...

9得票2回答
美味汤导入错误

我正在尝试编写一个简单的本地Python脚本来进行一些HTML解析。我安装了beautifulsoup4并使用import导入了它。 from bs4 import BeautifulSoup 但是我收到了错误提示: Traceback (most recent call last):...

21得票2回答
Scrapy:提取链接和文本

我是scrapy的新手,正在尝试爬取宜家网站的网页。基本页面如此处所示here。 下面是我的items.py文件:import scrapy class IkeaItem(scrapy.Item): name = scrapy.Field() link = scrapy...

20得票3回答
Python中的网络爬虫 - 防止IP被封禁

我正在使用Python爬取网页。到目前为止,我没有遇到任何复杂的问题。 我想要爬取的网站使用了许多安全检查,并且有一些机制来防止爬取。 使用Requests和lxml,我能够在被封禁之前爬取大约100-150页。有时我甚至在第一个请求(新的IP,之前没有使用过,不同的C块)上就被封禁了。我...

7得票1回答
Selenium HtmlUnitDriver 网络爬虫从 EC2 服务器获取验证码页面

我写了一个简单的网页爬虫来抓取expedia.com。使用Java Selenium HtmlUnitDriver,如果在本地运行,则能够成功从网站上抓取数据。 然而,当我将其部署到EC2服务器上时,它总是返回一个页面,显示 expedia 检测到它作为机器人,并展示验证码以证明正在访问的是...

7得票3回答
Python的“requests”库发送HTTP请求时返回404状态码,但在浏览器中页面可以正常加载。

我正在尝试爬取几个网站的内容。但是我注意到,对于一些网站,我得到的响应状态码是200。然而,对于其他一些网站,我得到的响应是404状态码。但是当我在浏览器中打开这些网站时,它们可以正常加载。我错过了什么吗? 例如: import requests url_1 = "https://ww...

66得票9回答
使用Node.js实时抓取网页

使用Node.js爬取网站内容的好方法是什么?我想构建一个非常快速的东西,可以以kayak.com的方式执行搜索,其中一个查询被分派到几个不同的站点,结果被爬取,并在可用时返回给客户端。 假设此脚本应仅以JSON格式提供结果,我们可以直接在浏览器中或在另一个Web应用程序中处理它们。 一些...