想知道是否有一种利用Scala简洁语法的网络爬虫库。目前,我已经找到Chafe,但这个库文档不完善且维护状况不佳。我想知道是否有人使用Scala进行爬取并提供建议。(我试图将其集成到现有的Scala框架中,而不是使用Python等语言编写的爬虫工具。)
想知道是否有一种利用Scala简洁语法的网络爬虫库。目前,我已经找到Chafe,但这个库文档不完善且维护状况不佳。我想知道是否有人使用Scala进行爬取并提供建议。(我试图将其集成到现有的Scala框架中,而不是使用Python等语言编写的爬虫工具。)
首先,在JVM中有大量的HTML抓取库,你只需要使用其中一个(我的库做个修改即可)。
我用过的四个库是:
我用过Selenium,但从未用于抓取数据。 Scala有一个Selenium包装器。
我建议对现有的Java库进行修改,而不是使用某些不成熟的Scala库。
我推荐使用Goose:https://github.com/jiminoc/goose
它可能不太适合一般用途,但如果你需要从流行网站抓取文章内容,它可以直接使用。同时,它还提供了一个框架,可以让你扩展代码以覆盖其他网站。