15得票1回答
在R中试图使用tf-idf加权技术

我正在尝试使用tm包进行一些非常基本的文本分析并获取一些tf-idf分数; 我运行的是OS X(尽管我已经在Debian Squeeze上尝试过这个,结果相同); 我有一个目录(也就是我的工作目录),其中有几个文本文件(第一个包含Ulysses的前三集,第二个包含后三集,如果你想知道的话)。 ...

15得票3回答
不同长度向量的余弦相似度?

我正在尝试使用TF-IDF将文档分类。我已经计算了一些文档的tf_idf,但是当我尝试计算两个这些文档之间的余弦相似度时,出现了一个回溯错误:#len(u)==201, len(v)==246 cosine_distance(u, v) ValueError: objects are not...

15得票7回答
在Lucene中获取两个文档之间的余弦相似度

我已经在Lucene中建立了一个索引。我希望在不指定查询的情况下,仅仅获得两个索引文档之间的得分(余弦相似度或其他距离?)。 例如,我从先前打开的IndexReader ir 获取id为2和4的文档。 Document d1 = ir.document(2); Document d2 = i...

14得票3回答
将tfidf附加到pandas数据框中。

我有以下的pandas数据结构:col1 col2 col3 text 1 1 0 meaningful text 5 9 7 trees 7 8 2 text 我想使用tfidf向量化它。但是这会返回一个解析矩阵,我可以通过 myspar...

14得票2回答
将新文本添加到Sklearn TFIDIF向量化器(Python)

有没有一种函数可以将内容添加到现有的语料库中?我已经生成了我的矩阵,现在想要定期将内容添加到表格中,而不需要重新生成整个东西。 例如:articleList = ['here is some text blah blah','another text object', 'more foo f...

13得票1回答
禁用Elasticsearch中的IDF得分

我正在使用ES进行模糊搜索大量人名列表。 对于评分,TF是适用的,但在这种情况下,IDF并不需要。这会使得分数变得稀释。我仍然希望将TF和字段归一化应用于得分。 我怎样能够禁用/抑制我的查询中的IDF,但保留TF和字段归一化呢? 我看到了Disable IDF calculation 的...

13得票1回答
Elasticsearch单词频率和关系

我想知道是否有可能在整个索引或别名中获取Elasticsearch字段中前十个最频繁的单词。 这是我想要做的: 我正在索引从各种文档类型(Word、Powerpoint、PDF等)提取的文本文档,这些文档已分析并存储在名为doc_content的字段中。我想知道是否有一种方法可以查找存储在...

13得票1回答
使用sklearn计算两个不同列的tfidf分数

我正在尝试计算一组查询和每个查询的结果集之间的相似度。我想使用tf-idf得分和余弦相似度来实现这一点。问题在于,我无法想出如何使用两列(在pandas数据帧中)生成tf-idf矩阵。我已经将这两列连接起来,虽然它能正常工作,但需要跟踪哪个查询属于哪个结果,这很麻烦。我该如何同时为两列计算tf...

13得票1回答
我在k折交叉验证中是否使用相同的Tfidf词汇表

我正在基于 TF-IDF 向量空间模型进行文本分类,手头的样本不超过3000个。为了公正评估分类器,我正在使用5折交叉验证进行评估。但是让我困惑的是,在每个折叠交叉验证中是否需要重新构建 TF-IDF 向量空间模型?也就是说,我是否需要在每个折叠交叉验证中重建词汇表并重新计算其中的 IDF 值...

13得票4回答
如何对tf-idf向量的数据点进行可视化以进行kmeans聚类?

我有一份文档清单,其中包含整个语料库中每个唯一单词的tf-idf得分。如何在2D图上可视化它,以便给我一个指标来确定需要运行多少个k-means聚类? 这是我的代码:sentence_list=["Hi how are you", "Good morning" ...] vectorizer...