Nutch 1.10输入路径不存在/linkdb/current。

6
当我运行命令nutch 1.10时,假设TestCrawl2以前并不存在需要创建...
sudo -E bin/crawl -i -D solr.server.url=http://localhost:8983/solr/TestCrawlCore2 urls/ TestCrawl2/ 20

我在索引时收到一个错误,错误信息如下:

Indexer: org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: file:/opt/apache-nutch-1.10/TestCrawl2/linkdb/current

链接数据库目录已存在,但不包含“current”目录。该目录归属于root用户,因此不应出现权限问题。由于进程由于错误而退出,链接数据库目录中包含“.locked”和“..locked.crc”文件。如果再次运行命令,这些锁定文件将导致它在同一位置退出。删除“TestCrawl2”目录,重复操作即可。请注意,Nutch和Solr的安装本身以前在“TestCrawl”实例中运行时没有任何问题。只有当我尝试新的实例时才会出现问题。您对解决此问题有什么建议吗?
1个回答

3

好的,看起来我遇到了这个问题的一个版本:

https://issues.apache.org/jira/browse/NUTCH-2041

这是由于爬行脚本不知道忽略外部链接和我的nutch-site.xml文件的更改而导致的结果。
我正在尝试爬取几个网站,并希望通过忽略外部链接并保持regex-urlfilter.txt不变(只使用+)来简化我的生活。
现在看来,我将不得不将ignore_external_links更改回false,并为我的每个url添加一个正则表达式过滤器。希望我能尽快获得nutch 1.11版本发布。看起来这个问题已经在那里得到了解决。

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接