得票数最多 'information-retrieval' 问题 - 第3页

关联标签

16得票3回答

用Python实现高效的1-5克提取方法

我有一个包含3,000,000行的巨大文件，每行都有20-40个单词。我必须从这个语料库中提取1到5个ngram。我的输入文件是已分词的纯文本，例如：This is a foo bar sentence . There is a comma , in this sentence . Such ...

pythonnlpnltkinformation-retrievaln-gram

16得票1回答

Python中的逆序排序和argsort

我正在尝试在Python中编写一个函数(还是个新手!)，该函数返回按tfidf得分的内积排序的文档的指数和分数。具体步骤如下：计算文档idx与所有其他文档之间的内积向量按降序排序从第二个开始到最后一个返回“分数”和索引(即不包括自身) 目前我拥有的代码如下：import h5py...

pythonnumpyscipyinformation-retrievalsparse-matrix

16得票4回答

用术语权重进行模糊字符串匹配

我正在开发一个应用程序，试图将一组可能存在混杂的实体名称与参考列表中的“干净”实体名称进行匹配。我一直在使用编辑距离和其他常见的模糊匹配算法，但我想知道是否有更好的方法，可以进行术语加权，这样常见的术语在模糊匹配中就会被赋予较少的权重。考虑以下示例，使用Python的 difflib 库。...

pythonstringinformation-retrieval

16得票3回答

在Python中快速/优化N-gram实现

哪个Python中的ngram实现最快？我尝试过评估nltk和scott的zip（http://locallyoptimal.com/blog/2013/01/20/elegant-n-gram-generation-in-python/）：from nltk.util import ngra...

pythonnlpnltkinformation-retrievaln-gram

16得票1回答

如何使用trec_eval评估搜索/检索引擎？

有没有使用过TREC_EVAL的人？我需要一份“TREC_EVAL入门指南”。我正在尝试评估几个搜索引擎，以比较召回率-精确度、排名质量等参数，以用于我的论文研究。我找不到如何使用TREC_EVAL向搜索引擎发送查询并获取结果文件以便在TREC_EVAL中使用。

search-engineinformation-retrievaldata-retrieval

16得票1回答

Apache Solr中的相关反馈

我将为您翻译编程相关内容。以下是需要翻译的内容：我希望在Solr中实现相关反馈。Solr已经有一个更多类似于此的功能：给定一个单一文档，返回一组与输入文档相似度排名较高的类似文档。是否可以配置Solr的More Like This功能，使其像More Like Those一样行事？换句话说：给...

solrluceneinformation-retrieval

16得票1回答

部分词语的文档搜索

我正在寻找一款文档搜索引擎（比如Xapian、Whoosh、Lucene、Solr、Sphinx或其他），它能够搜索部分词项。例如，当搜索术语“brit”时，搜索引擎应该返回包含“britney”或“britain”或任何包含匹配r*brit*的单词的文档。顺带提一下，我注意到大多数引...

lucenesolrinformation-retrievalxapianwhoosh

15得票3回答

新闻文章的聚类

我的情景非常简单：我有一堆新闻文章（目前大约1k篇），我知道其中有些文章涵盖了同一个故事/主题。现在，我希望能够根据它们的相似性将这些文章分组。到目前为止，我所做的是应用基本的自然语言处理技术，包括停用词去除和词干提取。我还计算了每篇文章的tf-idf向量，并且基于这些tf-idf向量也可...

machine-learningnlpcluster-analysisinformation-retrievalunsupervised-learning

15得票1回答

短语查询和使用 shingle 过滤器有什么区别？

我目前正在使用lucene对网页进行索引。目的是能够快速提取包含某个表达式（通常为1、2或3个单词）的页面以及页面中还有哪些其他单词（或1到3个单词的组合）。这将用于构建/丰富/修改词汇表（固定词汇）。从我找到的文章来看，似乎问题在于找到n-grams（或shingle）。 Lucene...

javaluceneinformation-retrieval

15得票3回答

获取整个索引中的总词频（Elasticsearch）

我试图计算整个索引中特定术语出现的总次数（术语集合频率）。我尝试使用术语向量来实现这一目标，但这仅限于单个文档。即使在指定文档中存在某些术语的情况下，响应似乎也会在某个doc_count（在field_statistics中）达到最大值，这让我对其准确性产生怀疑。请求：http://myi...

elasticsearchinformation-retrieval