Nutch 1.10输入路径不存在/linkdb/current。

Question

Nutch 1.10输入路径不存在/linkdb/current。

6

当我运行命令nutch 1.10时，假设TestCrawl2以前并不存在需要创建...

sudo -E bin/crawl -i -D solr.server.url=http://localhost:8983/solr/TestCrawlCore2 urls/ TestCrawl2/ 20

我在索引时收到一个错误，错误信息如下：

Indexer: org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: file:/opt/apache-nutch-1.10/TestCrawl2/linkdb/current

链接数据库目录已存在，但不包含“current”目录。该目录归属于root用户，因此不应出现权限问题。由于进程由于错误而退出，链接数据库目录中包含“.locked”和“..locked.crc”文件。如果再次运行命令，这些锁定文件将导致它在同一位置退出。删除“TestCrawl2”目录，重复操作即可。请注意，Nutch和Solr的安装本身以前在“TestCrawl”实例中运行时没有任何问题。只有当我尝试新的实例时才会出现问题。您对解决此问题有什么建议吗？

- Anonymous Man

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Anonymous Man · Accepted Answer

好的，看起来我遇到了这个问题的一个版本:

https://issues.apache.org/jira/browse/NUTCH-2041

这是由于爬行脚本不知道忽略外部链接和我的nutch-site.xml文件的更改而导致的结果。

我正在尝试爬取几个网站，并希望通过忽略外部链接并保持regex-urlfilter.txt不变（只使用+）来简化我的生活。

现在看来，我将不得不将ignore_external_links更改回false，并为我的每个url添加一个正则表达式过滤器。希望我能尽快获得nutch 1.11版本发布。看起来这个问题已经在那里得到了解决。