16得票3回答
如何对Solr/Lucene评分进行归一化?

我试图找出如何改进Solr搜索结果的评分。我的应用程序需要获取Solr结果的得分,并根据与查询匹配程度的好坏来显示几个“星级”,5颗星代表几乎完全匹配,0颗星表示不太匹配,例如只有一个元素符合条件。然而,我得到的得分从1.4到0.8660254,这两个得分都应该给予5星评价。我需要做的是将这些...

7得票2回答
IDF对单个词查询的排名没有影响。

我正在阅读这篇文章,它说: 请注意,IDF取决于查询项(T)和整个数据库。特别是,它不会因文档而异。因此,IDF对单词查询没有影响。 我不太明白这个意思。如果 TF-IDF(T) = TF * log(N/dbCount[T]),为什么它对一个单词查询没有影响?

41得票1回答
如何在scikit-learn中使用tfidf后查看术语-文档矩阵的前n个条目

我是scikit-learn的新手,使用TfidfVectorizer来找到一组文档中术语的tfidf值。我使用了以下代码来获取相同结果。vectorizer = TfidfVectorizer(stop_words=u'english',ngram_range=(1,5),lowercase...

15得票1回答
在R中试图使用tf-idf加权技术

我正在尝试使用tm包进行一些非常基本的文本分析并获取一些tf-idf分数; 我运行的是OS X(尽管我已经在Debian Squeeze上尝试过这个,结果相同); 我有一个目录(也就是我的工作目录),其中有几个文本文件(第一个包含Ulysses的前三集,第二个包含后三集,如果你想知道的话)。 ...

9得票2回答
NLTK是否已经实现了TF-IDF?

在scikit-learn和gensim中都有TF-IDF的实现。 在Simple implementation of N-Gram, tf-idf and Cosine similarity in Python中也有简单的实现方法。 为了避免重复造轮子,NLTK中真的没有TF-IDF吗?...

13得票2回答
在sklearn中创建TfidfTransformer时,'use_idf'到底是做什么的?

我正在使用Python 2.7中的sklearn包中的TfidfTransformer。 当我开始熟悉参数时,对于use_idf有些困惑,例如: TfidfVectorizer(use_idf=False).fit_transform(<corpus goes here>) ...

10得票2回答
使用sklearn在Python中计算n-grams的TF-IDF

我有一个包含以下n元组的词汇表。myvocabulary = ['tim tam', 'jam', 'fresh milk', 'chocolates', 'biscuit pudding'] 我希望使用这些词来计算 TF-IDF 值。 我还有一个语料库的字典,如下所示(key=食谱编号,v...

10得票3回答
为给定文档选择前n个TFIDF特征

我正在使用TFIDF稀疏矩阵进行文档分类,并希望每个文档仅保留前n个(例如50)按TFIDF得分排名的词项。参见下面的编辑。import numpy as np import pandas as pd from sklearn.feature_extraction.text import Tf...

7得票1回答
如何使用Spark创建文本分类的TF-IDF?

我有一个CSV文件,格式如下: product_id1,product_title1 product_id2,product_title2 product_id3,product_title3 product_id4,product_title4 product_id5,product_ti...

20得票3回答
在整个数据集上计算TF-IDF还是仅在训练数据上计算?

在本书“TensorFlow机器学习食谱”的第七章中,作者在数据预处理中使用了scikit-learn的fit_transform函数来获取文本的tfidf特征进行训练。作者在将文本数据分成训练集和测试集之前将所有文本数据都提供给了该函数。这是正确的操作吗?还是我们必须先将数据分开,然后在训练...