我用Lucene对一组文档进行了分类(字段:内容,类别)。每个文档都有自己的类别,但其中一些被标记为未分类。在Java中有没有简单的方法来对这些文档进行分类?
我用Lucene对一组文档进行了分类(字段:内容,类别)。每个文档都有自己的类别,但其中一些被标记为未分类。在Java中有没有简单的方法来对这些文档进行分类?
从 Lucene 5.2.1 开始,您可以使用索引文档对新文档进行分类。Lucene默认提供了朴素贝叶斯分类器、基于MoreLikeThis类的k最邻近分类器和感知器分类器。
缺点是所有这些类都带有实验性警告,并且用链接到维基百科进行记录。
对于任何新文本分类器,请查询最相似的前10或50篇至少有一个类别的文档,对这些“邻居”中的类别出现次数求和,并从这些相似文档中挑选出出现最频繁的三个类别(例如)。
或者,您可以通过连接(全部或部分)属于此类别的文档的文本来为每个类别索引一个新的聚合文档集。然后在这些“虚假”文档上直接使用输入文本运行相似性查询。
termVectors=true
。