得票数最多 'tf-idf' 问题 - 第5页

关联标签

13得票2回答

我正在使用Python 2.7中的sklearn包中的TfidfTransformer。当我开始熟悉参数时，对于use_idf有些困惑，例如： TfidfVectorizer(use_idf=False).fit_transform(<corpus goes here>) ...

12得票1回答

我有一个Spark DataFrame，其中包含一列短句子和一列分类变量。我想对这些句子执行tf-idf，对分类变量执行one-hot-encoding，然后将其输出到我的驱动程序上的稀疏矩阵中，使其更小（用于scikit-learn模型）。最好的方法是如何从Spark中以稀疏形式获取数据...

12得票1回答

我想学习更多关于自然语言处理NLP的知识。我看到了这段代码，但是当输出TfidfVectorizer.fit_transform的结果时，我对结果感到困惑。虽然我熟悉tfidf，但我无法理解这些数字的含义。 import tensorflow as tf import numpy as np...

12得票2回答

我已经成功地评估了给定语料库的tf-idf函数。如何找到每个文档的停用词和最佳单词？我理解，对于给定单词和文档来说，tf-idf值较低意味着它不是选择该文档的好单词。

12得票1回答

我正在开发一个简单的搜索引擎，使用TF-IDF公式来评分搜索词的重要性。我发现人们在使用该公式时会选择不同的底数，但我并没有看到任何解释何时应该使用哪个底数。这是否重要，您有任何建议吗？我目前的实现使用了math.h库中的常规log()函数。

11得票2回答

我有一个产品数据集的TF-IDF矩阵： tfidf = TfidfVectorizer().fit_transform(words) 其中words是描述的列表。这将生成一个69258x22024的矩阵。现在我想要找到一个新产品与矩阵中的产品之间的余弦相似度，因为我需要找到最相似的1...

11得票1回答

去除停用词和词干提取对术语频率(TF)和逆文档频率(IDF)有何影响? 谢谢!

11得票4回答

我的目标是输入3个查询，找出哪个查询与一组5份文档最相似。到目前为止，我已经通过以下方式计算了文档的tf-idf：from sklearn.feature_extraction.text import TfidfVectorizer def get_term_frequency_inve...

11得票1回答

在scikit-learn中，TfidfVectorizer允许我们拟合训练数据，并稍后使用相同的向量化器转换测试数据。在训练数据上进行转换的输出是一个矩阵，表示给定文档中每个单词的tf-idf分数。然而，已拟合的向量化器如何计算新输入的分数呢？我猜可能是： 1. 在训练集中的文件中对同...

10得票2回答

我用大量数据训练了Ridge分类器，使用了tfidf向量化器来对数据进行向量化，之前一直能够正常工作。但现在我面临着一个错误。 'max_df corresponds to < documents than min_df' 数据存储在Mongodb中。我尝试了各种选项来解决...