我们一直在系统中使用Elasticsearch。虽然我使用了它的分析器和查询,但我没有深入研究过它的索引。目前为止,我不知道ES能让我们在其分片中工作Lucene(倒排)索引到什么程度。
现在我们正在寻找各种NLP功能--其中之一是NER,而Stanford NLP很吸引人。
这两个包之间没有插件可以协同工作(?)
我没有深入研究过Stanford NLP。然而,就我所看到的而言,它正在自己的索引上工作。无论传递给它的对象或类型是什么,Stanford NLP都会自行对其进行索引并从那里开始工作。
这将使该系统为相同的文档集使用2个不同的索引--ES和StanfordNLP的索引,这将是昂贵的。
有没有办法解决这个问题?
我想到的一个方案是:让StanfordNLP在Lucene段上工作--即ES已经构建的倒排索引。在这种情况下:
1.) StanfordNLP是否使用Lucene索引而不重新为自己索引任何内容?我不知道StanfordNLP的索引结构——甚至不知道它使用/不使用Lucene的程度。
2.) 在使用ES分片中的Lucene索引时是否有任何限制?我们是否会直接使用这些Lucene段而绕过ES之间的限制?
我正在尝试整合这些东西——现在还没有具体方案。对于幼稚的问题,很抱歉。
我知道OpenNLP及其插件。我没有检查过-我猜它不会“双重索引”并使用ES的索引(?)但是我们需要的是StanfordNLP。
谢谢您的帮助。
现在我们正在寻找各种NLP功能--其中之一是NER,而Stanford NLP很吸引人。
这两个包之间没有插件可以协同工作(?)
我没有深入研究过Stanford NLP。然而,就我所看到的而言,它正在自己的索引上工作。无论传递给它的对象或类型是什么,Stanford NLP都会自行对其进行索引并从那里开始工作。
这将使该系统为相同的文档集使用2个不同的索引--ES和StanfordNLP的索引,这将是昂贵的。
有没有办法解决这个问题?
我想到的一个方案是:让StanfordNLP在Lucene段上工作--即ES已经构建的倒排索引。在这种情况下:
1.) StanfordNLP是否使用Lucene索引而不重新为自己索引任何内容?我不知道StanfordNLP的索引结构——甚至不知道它使用/不使用Lucene的程度。
2.) 在使用ES分片中的Lucene索引时是否有任何限制?我们是否会直接使用这些Lucene段而绕过ES之间的限制?
我正在尝试整合这些东西——现在还没有具体方案。对于幼稚的问题,很抱歉。
我知道OpenNLP及其插件。我没有检查过-我猜它不会“双重索引”并使用ES的索引(?)但是我们需要的是StanfordNLP。
谢谢您的帮助。