仅将Lucene用作倒排索引

3
Lucene具有增量索引的强大功能,这在从头开始开发IR系统时通常是一种痛苦。我想知道我是否可以使用低级别的Lucene API将其仅用作倒排索引,即倒排列表、位置信息、词项频率、IDF、字段存储等的存储。
总之,我想实现自己的文档加权和评分。我知道Similarity类,但它没有给我想要的灵活性。
1个回答

1

你可以自己制作查询类和评分器等。唯一可能遇到的问题是如果你需要全局数据。(例如,在tf/idf中,你需要知道词频和逆文档频率。)如果你的评分算法需要一些其他跨文档或跨术语的元数据,你可能会遇到麻烦,因为我不知道有什么好的方法来存储这些。

但基本上,只要你的算法大致符合tf/idf或仅适用于每个文档,我认为你应该没问题。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接