从Lucene索引中获取最高频率的术语

5
我需要从多个Lucene索引中提取出现频率最高的术语,以便用于一些语义分析。因此,我想获取大约前30个出现最多的术语(仍未确定阈值,我将分析结果)及其每个索引的计数。我知道可能会因为重复而失去一些精度,但目前来说,我可以接受这种情况。
对于所提出的解决方案,速度并不重要,因为我将进行静态分析,我会注重实现的简单性,因为我不太熟悉Lucene,并且无法理解一些概念。
我找不到类似的代码示例,所以所有具体建议(代码,伪代码,代码示例链接...)都将不胜感激!
谢谢!
2个回答

5

一个非常简单的方法是使用Luke。在“概览”选项卡中,有一个“显示前几个词项”的按钮,可以用于您所需的内容。


那就是这样。你可以复制粘贴甚至导出结果。 - Yuval F

2

你好,mindas! 我正在使用Lucene 4.4,但它没有terms()方法?请帮帮我! - Thangnv
@Thangnv 你可能想要开一个单独的线程来讨论这个问题,或者发送电子邮件到Lucene Java邮件列表。我手头没有运行Lucene 4.4的环境。而且最近时间非常紧张;-( - mindas

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接