得票数最多 'tf-idf' 问题 - 第4页

关联标签

15得票1回答

在R中试图使用tf-idf加权技术

我正在尝试使用tm包进行一些非常基本的文本分析并获取一些tf-idf分数；我运行的是OS X（尽管我已经在Debian Squeeze上尝试过这个，结果相同）；我有一个目录（也就是我的工作目录），其中有几个文本文件（第一个包含Ulysses的前三集，第二个包含后三集，如果你想知道的话）。 ...

rtmtf-idftext-analysis

15得票3回答

不同长度向量的余弦相似度？

我正在尝试使用TF-IDF将文档分类。我已经计算了一些文档的tf_idf，但是当我尝试计算两个这些文档之间的余弦相似度时，出现了一个回溯错误：#len(u)==201, len(v)==246 cosine_distance(u, v) ValueError: objects are not...

pythonnlpsimilaritynltktf-idf

15得票7回答

在Lucene中获取两个文档之间的余弦相似度

我已经在Lucene中建立了一个索引。我希望在不指定查询的情况下，仅仅获得两个索引文档之间的得分（余弦相似度或其他距离？）。例如，我从先前打开的IndexReader ir 获取id为2和4的文档。 Document d1 = ir.document(2); Document d2 = i...

lucenesimilaritytrigonometrytf-idf

14得票3回答

将tfidf附加到pandas数据框中。

我有以下的pandas数据结构：col1 col2 col3 text 1 1 0 meaningful text 5 9 7 trees 7 8 2 text 我想使用tfidf向量化它。但是这会返回一个解析矩阵，我可以通过 myspar...

pythondataframetf-idfsklearn-pandas

14得票2回答

将新文本添加到Sklearn TFIDIF向量化器（Python）

有没有一种函数可以将内容添加到现有的语料库中？我已经生成了我的矩阵，现在想要定期将内容添加到表格中，而不需要重新生成整个东西。例如：articleList = ['here is some text blah blah','another text object', 'more foo f...

pythonscikit-learntf-idf

13得票1回答

禁用Elasticsearch中的IDF得分

我正在使用ES进行模糊搜索大量人名列表。对于评分，TF是适用的，但在这种情况下，IDF并不需要。这会使得分数变得稀释。我仍然希望将TF和字段归一化应用于得分。我怎样能够禁用/抑制我的查询中的IDF，但保留TF和字段归一化呢？我看到了Disable IDF calculation 的...

elasticsearchtf-idf

13得票1回答

Elasticsearch单词频率和关系

我想知道是否有可能在整个索引或别名中获取Elasticsearch字段中前十个最频繁的单词。这是我想要做的：我正在索引从各种文档类型（Word、Powerpoint、PDF等）提取的文本文档，这些文档已分析并存储在名为doc_content的字段中。我想知道是否有一种方法可以查找存储在...

elasticsearchfrequencytf-idf

13得票1回答

使用sklearn计算两个不同列的tfidf分数

我正在尝试计算一组查询和每个查询的结果集之间的相似度。我想使用tf-idf得分和余弦相似度来实现这一点。问题在于，我无法想出如何使用两列（在pandas数据帧中）生成tf-idf矩阵。我已经将这两列连接起来，虽然它能正常工作，但需要跟踪哪个查询属于哪个结果，这很麻烦。我该如何同时为两列计算tf...

pythonpandasscikit-learntf-idf

13得票1回答

我在k折交叉验证中是否使用相同的Tfidf词汇表

我正在基于 TF-IDF 向量空间模型进行文本分类，手头的样本不超过3000个。为了公正评估分类器，我正在使用5折交叉验证进行评估。但是让我困惑的是，在每个折叠交叉验证中是否需要重新构建 TF-IDF 向量空间模型？也就是说，我是否需要在每个折叠交叉验证中重建词汇表并重新计算其中的 IDF 值...

pythonscikit-learncross-validationtf-idf

13得票4回答

如何对tf-idf向量的数据点进行可视化以进行kmeans聚类？

我有一份文档清单，其中包含整个语料库中每个唯一单词的tf-idf得分。如何在2D图上可视化它，以便给我一个指标来确定需要运行多少个k-means聚类？这是我的代码：sentence_list=["Hi how are you", "Good morning" ...] vectorizer...

pythonscipyscikit-learnk-meanstf-idf