Scikit-learn中的ngram_range在TF-IDF向量化器中有什么作用?

16
ngram_range在像CountVectorizer和TF-IDF Vectorizer这样的向量化器中有什么用呢?我的意思是ngram_range(1,1)是用于unigram。那么ngram_range(1,2)和(2,2)又代表什么呢?
1个回答

17

ngram_range(1, 2) 表示提取 unigrams 和 bigrams,(2, 2) 表示只提取 bigrams。

您不认为 docstring 已经足够精确了吗:

n-gram 范围的下限和上限,用于提取不同 n-gram。将使用 min_n <= n <= max_n 的所有 n 值。

您会如何更改 docstring 以使其更有帮助?


8
虽然留言比较晚,但是Andreas在这里的第一句话提供了一个很好的例子,可以帮助新手快速学习。因此,如果将这样一个例子添加到文档字符串中,会使新手的生活变得更加轻松愉快。谢谢。 - salvu
你的回答真的帮助我理解了ngram_range()的概念;这个回答确实详尽地阐述了所有细节,赞! - Sumax

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接