17得票3回答
什么自然语言处理工具可以用于匹配意思或语义相似的短语?

我正在处理一个项目,需要将短语或关键词与一组相似的关键词匹配。我需要进行语义分析。 例如: 相关QT 便宜的医疗保险 经济实惠的健康保险 低成本的医疗保险 少花钱的健康计划 廉价的医疗保障 共同意义 低成本的健康保险 在这里,“共同意义”列下的单词应该与“相关QT”列下的单词相匹配。...

13得票3回答
潜在语义分析概念

我已经阅读过关于在文本语料库中使用奇异值分解(Singular Value Decomposition,SVD)进行潜在语义分析(Latent Semantic Analysis,LSA)的方法。我知道如何进行此操作,并且理解SVD的数学概念。 但是我不明白为什么将其应用于文本语料库时会起作用...

10得票1回答
Latent semantic analysis中的维度数量如何确定?

最近我一直在研究潜在语义分析。我已经使用Jama包在Java中实现了它。 下面是代码: Matrix vtranspose ; a = new Matrix(termdoc); termdoc = a.getArray(); a = a.transpos...

10得票4回答
使用gensim中的潜在狄利克雷分配算法进行聚类

是否可以在gensim中使用LDA算法对给定的输入集进行聚类?我该如何操作?

7得票2回答
需要在潜在语义索引方面寻求帮助。

很抱歉,如果我的问题听起来很愚蠢 :) 您能否向我推荐任何在Java中实现LSI的伪代码或良好算法? 我不是数学专家。我试图阅读一些维基百科和其他网站上关于LSI(潜在语义索引)的文章,但它们充满了数学公式。 我知道LSI充满了数学。但是如果我看到一些源代码或算法。我更容易理解事情。 这就是为...

7得票2回答
通过Gensim找到未见过的文档主题

我正在使用Gensim进行大规模主题建模。我不太明白如何确定非索引文档的预测主题。例如:我有2500万个文档已经在LSA(和LDA)空间中转换为向量。现在,我想要找出一个新文档的主题,我们称其为x。 根据Gensim的文档,我可以使用以下方法: topics = lsi[doc(x)] ...