文档-词矩阵中的最大术语长度

3
假设使用tm软件包创建了以下文档-词项矩阵:
> frequencies
<<DocumentTermMatrix (documents: 255, terms: 470)>>
Non-/sparse entries: 7693/112157
Sparsity           : 94%
Maximal term length: 10
Weighting          : term frequency (tf)

最大术语长度是什么?
1个回答

2

最大术语长度是文档术语矩阵中一个或多个术语的最大字符数。

示例:如果您在dtm中有5个单词,并且最长的一个术语是“programming”,则最大术语长度将为11。

text <- c("word1", "word2", "word3", "word4", "programming")
corp <- Corpus(VectorSource(text))
term <- DocumentTermMatrix(corp)
term

<<DocumentTermMatrix (documents: 5, terms: 5)>>
Non-/sparse entries: 5/20
Sparsity           : 80%
Maximal term length: 11
Weighting          : term frequency (tf)

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接