13得票2回答
在sklearn中创建TfidfTransformer时,'use_idf'到底是做什么的?

我正在使用Python 2.7中的sklearn包中的TfidfTransformer。 当我开始熟悉参数时,对于use_idf有些困惑,例如: TfidfVectorizer(use_idf=False).fit_transform(<corpus goes here>) ...

12得票1回答
Pyspark: 稀疏向量转换为Scipy稀疏矩阵

我有一个Spark DataFrame,其中包含一列短句子和一列分类变量。我想对这些句子执行tf-idf,对分类变量执行one-hot-encoding,然后将其输出到我的驱动程序上的稀疏矩阵中,使其更小(用于scikit-learn模型)。 最好的方法是如何从Spark中以稀疏形式获取数据...

12得票1回答
TfidfVectorizer.fit_transform的返回结果让我感到困惑

我想学习更多关于自然语言处理NLP的知识。我看到了这段代码,但是当输出TfidfVectorizer.fit_transform的结果时,我对结果感到困惑。虽然我熟悉tfidf,但我无法理解这些数字的含义。 import tensorflow as tf import numpy as np...

12得票2回答
如何使用tf-idf选择停用词?(非英语语料库)

我已经成功地评估了给定语料库的tf-idf函数。如何找到每个文档的停用词和最佳单词?我理解,对于给定单词和文档来说,tf-idf值较低意味着它不是选择该文档的好单词。

12得票1回答
何时使用哪个对数基底来计算tf-idf?

我正在开发一个简单的搜索引擎,使用TF-IDF公式来评分搜索词的重要性。我发现人们在使用该公式时会选择不同的底数,但我并没有看到任何解释何时应该使用哪个底数。这是否重要,您有任何建议吗? 我目前的实现使用了math.h库中的常规log()函数。

11得票2回答
TD-IDF在新文档和数据集之间查找余弦相似度

我有一个产品数据集的TF-IDF矩阵: tfidf = TfidfVectorizer().fit_transform(words) 其中words是描述的列表。这将生成一个69258x22024的矩阵。 现在我想要找到一个新产品与矩阵中的产品之间的余弦相似度,因为我需要找到最相似的1...

11得票1回答
词干提取对术语频率的影响是什么?

去除停用词和词干提取对术语频率(TF)和逆文档频率(IDF)有何影响? 谢谢!

11得票4回答
使用sklearn如何计算文档和查询之间的tf-idf余弦相似度?

我的目标是输入3个查询,找出哪个查询与一组5份文档最相似。 到目前为止,我已经通过以下方式计算了文档的tf-idf:from sklearn.feature_extraction.text import TfidfVectorizer def get_term_frequency_inve...

11得票1回答
TfidfVectorizer如何在测试数据上计算分数

在scikit-learn中,TfidfVectorizer允许我们拟合训练数据,并稍后使用相同的向量化器转换测试数据。在训练数据上进行转换的输出是一个矩阵,表示给定文档中每个单词的tf-idf分数。 然而,已拟合的向量化器如何计算新输入的分数呢?我猜可能是: 1. 在训练集中的文件中对同...

10得票2回答
max_df对应于Ridge分类器中的文档数量,而min_df出现了错误。

我用大量数据训练了Ridge分类器,使用了tfidf向量化器来对数据进行向量化,之前一直能够正常工作。但现在我面临着一个错误。 'max_df corresponds to < documents than min_df' 数据存储在Mongodb中。 我尝试了各种选项来解决...