14得票2回答
使用参数的Python requests调用URL

我正在尝试调用import.io API。 这个调用需要有以下结构: 'https://extraction.import.io/query/extractor/{{crawler_id}}?_apikey=xxx&url=http://www.example.co.uk/i...

10得票2回答
如果其中一个存在,XPath选择1个元素

如果存在其中一个,我想选择其中一个元素,同时在这两个页面中使用它。 第一个页面(折扣价)<div class="price"> <span class="originalRetailPrice">$2,990.00</span> </div&...

8得票2回答
如何使用import.io提取登录页面后面的数据?

我需要爬取一些位于登录页面后面的数据。为了能够爬取这些数据,我需要一个登录工具,并且能够爬取其后面的页面。在import.io上是否可能实现这个功能?

7得票1回答
XPath的following-sibling用于爬取兄弟节点未返回兄弟节点。

我正在尝试创建一个网络爬虫,从供应商网站中提取一些属性数据,以便与我们的内部属性数据库进行审核。我刚开始使用import.io。我看了很多视频,但是虽然我的语法似乎没问题,但手动xpath覆盖功能却没有返回属性值。以下是我使用的示例html代码: <table> <tbod...

7得票3回答
运行爬虫时,获取的数据与训练时不一致

当我训练我的网络爬虫来抓取Yelp网页时,它可以自动获取所有信息,但是当我运行爬虫时,地址无法识别,而且不会被记录。