23得票4回答
如何使用sklearn的TfidfVectorizer处理已经进行过分词的输入?

我有一个分词句子的列表,想要使用tfidf向量化器进行拟合。我尝试了以下方法:tokenized_list_of_sentences = [['this', 'is', 'one'], ['this', 'is', 'another']] def identity_tokenizer(tex...

12得票1回答
TfidfVectorizer.fit_transform的返回结果让我感到困惑

我想学习更多关于自然语言处理NLP的知识。我看到了这段代码,但是当输出TfidfVectorizer.fit_transform的结果时,我对结果感到困惑。虽然我熟悉tfidf,但我无法理解这些数字的含义。 import tensorflow as tf import numpy as np...

11得票1回答
TfidfVectorizer如何在测试数据上计算分数

在scikit-learn中,TfidfVectorizer允许我们拟合训练数据,并稍后使用相同的向量化器转换测试数据。在训练数据上进行转换的输出是一个矩阵,表示给定文档中每个单词的tf-idf分数。 然而,已拟合的向量化器如何计算新输入的分数呢?我猜可能是: 1. 在训练集中的文件中对同...

10得票1回答
在sklearn的无监督聚类中,如何选择TfidfVectorizer中的参数?

提供了一种简单的方法,将文本编码并转换为向量。 我的问题是如何选择参数的适当值,例如min_df、max_features、smooth_idf、sublinear_tf? 更新: 也许我应该在问题上提供更多细节: 如果我正在对一堆文本执行无监督聚类,并且没有任何标签可以用于这些文本,我也...

7得票4回答
TF-IDF向量化器和TF-IDF转换器之间有什么区别?

我知道tfidf vectorizer的公式是什么。 Count of word/Total count * log(Number of documents / no.of documents where word is present) 我看到scikit learn里有tfidf变换...

7得票2回答
TF-IDF向量化器用于提取ngram

我该如何使用scikit-learn库中的TF-IDF向量化器提取推文的unigrams和bigrams?我想用输出结果来训练分类器。 以下是scikit-learn的代码: from sklearn.feature_extraction.text import TfidfVectoriz...