ngram_range在像CountVectorizer和TF-IDF Vectorizer这样的向量化器中有什么用呢?我的意思是ngram_range(1,1)是用于unigram。那么ngram_range(1,2)和(2,2)又代表什么呢?
ngram_range(1, 2) 表示提取 unigrams 和 bigrams,(2, 2) 表示只提取 bigrams。
您不认为 docstring 已经足够精确了吗:
n-gram 范围的下限和上限,用于提取不同 n-gram。将使用 min_n <= n <= max_n 的所有 n 值。
您会如何更改 docstring 以使其更有帮助?