我已经阅读过关于在文本语料库中使用奇异值分解(Singular Value Decomposition,SVD)进行潜在语义分析(Latent Semantic Analysis,LSA)的方法。我知道如何进行此操作,并且理解SVD的数学概念。
但是我不明白为什么将其应用于文本语料库时会起作用(我相信-一定有语言学解释)。 有人能以语言学角度解释一下吗?
谢谢。
我已经阅读过关于在文本语料库中使用奇异值分解(Singular Value Decomposition,SVD)进行潜在语义分析(Latent Semantic Analysis,LSA)的方法。我知道如何进行此操作,并且理解SVD的数学概念。
但是我不明白为什么将其应用于文本语料库时会起作用(我相信-一定有语言学解释)。 有人能以语言学角度解释一下吗?
谢谢。
这里没有语言解释,也没有涉及语法、等效类、同义词、形近词、词干提取等。也没有任何语义参与,只是单纯的单词组合。
把"文档"比作购物车:它包含了一组单词(购买),而且单词往往会与"相关"的单词共同出现。
例如:单词"drug"可以与{love, doctor, medicine, sports, crime}中的任意一个共同出现,每个词都指向不同的方向。但与文档中的许多其他单词结合起来时,您的查询可能会找到相似领域的文档。