如果我使用来自sklearn的TfidfVectorizer生成特征向量如下:
features = TfidfVectorizer(min_df=0.2, ngram_range=(1,3)).fit_transform(myDocuments)
那么我该如何生成用于分类新文档的特征向量呢?由于无法计算单个文档的TF-IDF,因此这种方法是否正确呢?
是不是应该先用以下代码提取特征名称:
feature_names = TfidfVectorizer.get_feature_names()
然后根据feature_names计算新文档的词频?
但是这样做就无法得到包含单词重要性信息的权重了。
features = TfidfVectorizer(min_df=0.2, ngram_range=(1,3)).fit_transform(myDocuments)
那么我该如何生成用于分类新文档的特征向量呢?由于无法计算单个文档的TF-IDF,因此这种方法是否正确呢?
是不是应该先用以下代码提取特征名称:
feature_names = TfidfVectorizer.get_feature_names()
然后根据feature_names计算新文档的词频?
但是这样做就无法得到包含单词重要性信息的权重了。