限制gensim相似度计算到语料库的子集

4
我希望使用Python中的gensim计算文档相似度。我想要一种方法,能够将计算限制在语料库的一个子集中。具体来说,我的文档有一个相关的年份,我想要一种方式只计算与搜索文档具有相同变量值的其他文档之间的相似度。我无法在例如http://radimrehurek.com/gensim/simserver.html上找到任何关于如何将附加变量与每个文档关联以及如何仅限制相似性计算到这些文档的说明 - 实现我所尝试的可能不可行。因此,我的问题是,这是否可能,或者唯一实现这一点的方法是使用多个语料库。
1个回答

0

你可以通过忽略不属于目标年份的结果来解决这个问题。

  1. 为你的文档创建一个document2year_dict(文档,年份)。
  2. 从target_document获取按距离排序的文档列表。
  3. 遍历列表并丢弃文档,如果document2year_dict[current_document] != target_year。

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接