最新 'web-scraping' 问题

关联标签

9得票6回答

解析复杂的HTML表格

我正在尝试解析大学提供的课程表，以便将信息导入某种日历。这里可以看到课程表的示例： http://www.asw-berufsakademie.de/fileadmin/download/download/Sked%20Stundenplan/WIA13-7.%20Block.html 根据...

javascriptphphtmlweb-scrapinghtml-table

48得票4回答

使用Python-Scrapy爬取动态内容

免责声明：我在StackOverflow上看到了许多类似的帖子，并尝试按照他们的方式进行操作，但是它们似乎在这个网站上无法正常工作。我正在使用Python-Scrapy从koovs.com获取数据。然而，我无法获取动态生成的产品尺寸。具体来说，如果有人能指导我如何从此链接中的下拉菜单中...

pythonweb-scrapingscrapy

14得票3回答

加速BeautifulSoup

我正在运行一个这门课程网站的爬虫，想知道在使用beautifulsoup将页面解析后是否有更快的方法来爬取页面。花费的时间比我预期的要长得多。有什么技巧吗？from selenium import webdriver from selenium.webdriver.common.keys i...

pythonseleniumweb-scrapinghtml-parsingbeautifulsoup

11得票2回答

Facebook抓取器无法加载动态Meta标签。

我正在使用以下函数（GWT）动态创建HTML元标记。它需要1秒钟才能在DOM上呈现。它的工作很好，除了Facebook之外。当我从我的网站分享链接时，爬虫获取的是HTML中的meta标签：none。我该怎么解决？/** * Include the HTML attributes: title,...

htmlfacebookweb-scrapingmeta-tagsscraper

9得票2回答

美味汤导入错误

我正在尝试编写一个简单的本地Python脚本来进行一些HTML解析。我安装了beautifulsoup4并使用import导入了它。 from bs4 import BeautifulSoup 但是我收到了错误提示： Traceback (most recent call last):...

pythonweb-scrapingbeautifulsoup

21得票2回答

Scrapy：提取链接和文本

我是scrapy的新手，正在尝试爬取宜家网站的网页。基本页面如此处所示here。下面是我的items.py文件：import scrapy class IkeaItem(scrapy.Item): name = scrapy.Field() link = scrapy...

pythonweb-scrapingscrapy

20得票3回答

Python中的网络爬虫 - 防止IP被封禁

我正在使用Python爬取网页。到目前为止，我没有遇到任何复杂的问题。我想要爬取的网站使用了许多安全检查，并且有一些机制来防止爬取。使用Requests和lxml，我能够在被封禁之前爬取大约100-150页。有时我甚至在第一个请求（新的IP，之前没有使用过，不同的C块）上就被封禁了。我...

pythonseleniumweb-scrapingscreen-scraping

7得票1回答

Selenium HtmlUnitDriver 网络爬虫从 EC2 服务器获取验证码页面

我写了一个简单的网页爬虫来抓取expedia.com。使用Java Selenium HtmlUnitDriver，如果在本地运行，则能够成功从网站上抓取数据。然而，当我将其部署到EC2服务器上时，它总是返回一个页面，显示 expedia 检测到它作为机器人，并展示验证码以证明正在访问的是...

seleniumselenium-webdriverweb-scrapinghtmlunithtmlunit-driver

7得票3回答

Python的“requests”库发送HTTP请求时返回404状态码，但在浏览器中页面可以正常加载。

我正在尝试爬取几个网站的内容。但是我注意到，对于一些网站，我得到的响应状态码是200。然而，对于其他一些网站，我得到的响应是404状态码。但是当我在浏览器中打开这些网站时，它们可以正常加载。我错过了什么吗？例如： import requests url_1 = "https://ww...

pythonpython-3.xweb-scrapingpython-requests

66得票9回答

使用Node.js实时抓取网页

使用Node.js爬取网站内容的好方法是什么？我想构建一个非常快速的东西，可以以kayak.com的方式执行搜索，其中一个查询被分派到几个不同的站点，结果被爬取，并在可用时返回给客户端。假设此脚本应仅以JSON格式提供结果，我们可以直接在浏览器中或在另一个Web应用程序中处理它们。一些...

javascriptjquerynode.jsscreen-scrapingweb-scraping