潜在语义分析概念

13

我已经阅读过关于在文本语料库中使用奇异值分解(Singular Value Decomposition,SVD)进行潜在语义分析(Latent Semantic Analysis,LSA)的方法。我知道如何进行此操作,并且理解SVD的数学概念。

但是我不明白为什么将其应用于文本语料库时会起作用(我相信-一定有语言学解释)。 有人能以语言学角度解释一下吗?

谢谢。


这可能更适合在cstheory.stackexchange.com上讨论。 - templatetypedef
你读过http://en.wikipedia.org/wiki/Latent_semantic_analysis的介绍段落了吗? - borrible
嗨,我也有同样的疑问!降低维度是必须的吗?为什么我们不能只使用V矩阵来找到文档之间的相似性,使用U矩阵来找到术语之间的相似性呢? - CTsiddharth
3个回答

14

这里没有语言解释,也没有涉及语法、等效类、同义词、形近词、词干提取等。也没有任何语义参与,只是单纯的单词组合。

把"文档"比作购物车:它包含了一组单词(购买),而且单词往往会与"相关"的单词共同出现。

例如:单词"drug"可以与{love, doctor, medicine, sports, crime}中的任意一个共同出现,每个词都指向不同的方向。但与文档中的许多其他单词结合起来时,您的查询可能会找到相似领域的文档。


2
你的答案比我的好多了。而且“drug”这个例子简直是一针见血! - KK.

5

词语在一起出现(即在同一文集中或同一文档中)对上下文有贡献。潜在语义分析基本上根据上下文相似性将语料库中类似的文档分组。

我认为这个页面上的示例和单词-文档图将有助于理解。


3
假设我们有以下五个文档集合:
d1:罗密欧与朱丽叶。 d2:朱丽叶:哦,幸福的匕首! d3:罗密欧死于匕首。 d4:“自由生存或死亡”,这是新罕布什尔的座右铭。 d5:你知道吗,新罕布什尔州在新英格兰地区。
搜索查询为:死亡、匕首。
显然,d3应该排名第一,因为它包含了死亡和匕首。然后,d2和d4应该跟随其后,每个文档都包含查询中的一个单词。但是,d1和d5呢?它们应该作为可能感兴趣的结果返回给此查询吗?作为人类,我们知道d1与查询相关。另一方面,d5与查询关系不大。因此,我们想要d1但不想要d5,换句话说,我们希望d1排名高于d5。
问题是:机器能够推断出这一点吗?答案是可以,潜在语义分析正是如此。在这个例子中,LSI将能够看到匕首一词与d1相关,因为它分别与d2和d3中的Romeo和Juliet一词一起出现。此外,"dies"一词与d1和d5相关,因为它分别与d3和d4中的Romeo和d5的New-Hampshire一词一起出现。LSI还将适当地权衡所发现的联系;d1更相关于查询,因为它通过Romeo和Juliet“双重”连接到匕首,而且还通过Romeo与死亡相连,而d5仅通过New-Hampshire与查询有单个连接。
参考文献:潜在语义分析(Alex Thomo)

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接