我正在使用R中的tm_map进行文本分析。我运行以下代码(没有错误)以生成(经过词干化和其他预处理的)单词的文档-术语矩阵。
但是当我查看我的(经过词干处理的)最常用术语时,我看到了几个让我想:“嗯,是哪些单词被词干处理成这样的?”此外,可能有一些词干词对我来说一开始看起来很合理,但也许我错过了它们实际上包含不同含义的单词的事实。
我想应用这个SO答案中描述的保留特定术语的策略/技术进行词干提取(例如,保留“自然”和“归化”的不同词根)。 使用tm软件包进行文本挖掘-词干提取 但为了更全面地做到这一点,我想看到所有映射到我的最常用词干词的单独单词列表。有没有办法找到这些单词,当它们被词干提取后,就会产生我的mostFreqTerms列表?
编辑:可重现的例子
上述mostFreqTerms输出
“adam” “one” “west”
我正在寻找一种编程方法来确定词干词“adam”来自原始单词“adam”和“adamant”。
corpus = Corpus(VectorSource(textVector))
corpus = tm_map(corpus, tolower)
corpus = tm_map(corpus, PlainTextDocument)
corpus = tm_map(corpus, removePunctuation)
corpus = tm_map(corpus, removeWords, c(stopwords("english")))
corpus = tm_map(corpus, stemDocument, language="english")
dtm = DocumentTermMatrix(corpus)
mostFreqTerms = findFreqTerms(dtm, lowfreq=125)
但是当我查看我的(经过词干处理的)最常用术语时,我看到了几个让我想:“嗯,是哪些单词被词干处理成这样的?”此外,可能有一些词干词对我来说一开始看起来很合理,但也许我错过了它们实际上包含不同含义的单词的事实。
我想应用这个SO答案中描述的保留特定术语的策略/技术进行词干提取(例如,保留“自然”和“归化”的不同词根)。 使用tm软件包进行文本挖掘-词干提取 但为了更全面地做到这一点,我想看到所有映射到我的最常用词干词的单独单词列表。有没有办法找到这些单词,当它们被词干提取后,就会产生我的mostFreqTerms列表?
编辑:可重现的例子
textVector = c("Trisha Takinawa: Here comes Mayor Adam West
himself. Mr. West do you have any words
for our viewers?Mayor Adam West: Box toaster
aluminum maple syrup... no I take that one
back. Im gonna hold onto that one.
Now MaxPower is adding adamant
so this example works")
corpus = Corpus(VectorSource(textVector))
corpus = tm_map(corpus, tolower)
corpus = tm_map(corpus, PlainTextDocument)
corpus = tm_map(corpus, removePunctuation)
corpus = tm_map(corpus, removeWords, c(stopwords("english")))
corpus = tm_map(corpus, stemDocument, language="english")
dtm = DocumentTermMatrix(corpus)
mostFreqTerms = findFreqTerms(dtm, lowfreq=2)
mostFreqTerms
上述mostFreqTerms输出
“adam” “one” “west”
我正在寻找一种编程方法来确定词干词“adam”来自原始单词“adam”和“adamant”。
snowball
网站上的等效列表。例如,这是英文列表。 - scoa