潜在语义分析概念

Question

潜在语义分析概念

algorithmnlpdata-miningtext-mininglatent-semantic-indexing

13

我已经阅读过关于在文本语料库中使用奇异值分解（Singular Value Decomposition，SVD）进行潜在语义分析（Latent Semantic Analysis，LSA）的方法。我知道如何进行此操作，并且理解SVD的数学概念。

但是我不明白为什么将其应用于文本语料库时会起作用（我相信-一定有语言学解释）。有人能以语言学角度解释一下吗？

谢谢。

- stemm

这可能更适合在cstheory.stackexchange.com上讨论。 - templatetypedef

你读过http://en.wikipedia.org/wiki/Latent_semantic_analysis的介绍段落了吗？ - borrible

嗨，我也有同样的疑问！降低维度是必须的吗？为什么我们不能只使用V矩阵来找到文档之间的相似性，使用U矩阵来找到术语之间的相似性呢？ - CTsiddharth

3个回答

5

词语在一起出现（即在同一文集中或同一文档中）对上下文有贡献。潜在语义分析基本上根据上下文相似性将语料库中类似的文档分组。

我认为这个页面上的示例和单词-文档图将有助于理解。

- KK.

3

假设我们有以下五个文档集合：

d1：罗密欧与朱丽叶。 d2：朱丽叶：哦，幸福的匕首！ d3：罗密欧死于匕首。 d4：“自由生存或死亡”，这是新罕布什尔的座右铭。 d5：你知道吗，新罕布什尔州在新英格兰地区。

搜索查询为:死亡、匕首。

显然，d3应该排名第一，因为它包含了死亡和匕首。然后，d2和d4应该跟随其后，每个文档都包含查询中的一个单词。但是，d1和d5呢？它们应该作为可能感兴趣的结果返回给此查询吗？作为人类，我们知道d1与查询相关。另一方面，d5与查询关系不大。因此，我们想要d1但不想要d5，换句话说，我们希望d1排名高于d5。

问题是：机器能够推断出这一点吗？答案是可以，潜在语义分析正是如此。在这个例子中，LSI将能够看到匕首一词与d1相关，因为它分别与d2和d3中的Romeo和Juliet一词一起出现。此外，"dies"一词与d1和d5相关，因为它分别与d3和d4中的Romeo和d5的New-Hampshire一词一起出现。LSI还将适当地权衡所发现的联系；d1更相关于查询，因为它通过Romeo和Juliet“双重”连接到匕首，而且还通过Romeo与死亡相连，而d5仅通过New-Hampshire与查询有单个连接。

参考文献：潜在语义分析（Alex Thomo）

- Sampath Liyanage

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- wildplasser · Accepted Answer

这里没有语言解释，也没有涉及语法、等效类、同义词、形近词、词干提取等。也没有任何语义参与，只是单纯的单词组合。

把"文档"比作购物车：它包含了一组单词（购买），而且单词往往会与"相关"的单词共同出现。

例如：单词"drug"可以与{love, doctor, medicine, sports, crime}中的任意一个共同出现，每个词都指向不同的方向。但与文档中的许多其他单词结合起来时，您的查询可能会找到相似领域的文档。