16得票3回答
用Python实现高效的1-5克提取方法

我有一个包含3,000,000行的巨大文件,每行都有20-40个单词。我必须从这个语料库中提取1到5个ngram。我的输入文件是已分词的纯文本,例如:This is a foo bar sentence . There is a comma , in this sentence . Such ...

16得票1回答
Python中的逆序排序和argsort

我正在尝试在Python中编写一个函数(还是个新手!),该函数返回按tfidf得分的内积排序的文档的指数和分数。具体步骤如下: 计算文档idx与所有其他文档之间的内积向量 按降序排序 从第二个开始到最后一个返回“分数”和索引(即不包括自身) 目前我拥有的代码如下:import h5py...

16得票4回答
用术语权重进行模糊字符串匹配

我正在开发一个应用程序,试图将一组可能存在混杂的实体名称与参考列表中的“干净”实体名称进行匹配。我一直在使用编辑距离和其他常见的模糊匹配算法,但我想知道是否有更好的方法,可以进行术语加权,这样常见的术语在模糊匹配中就会被赋予较少的权重。 考虑以下示例,使用Python的 difflib 库。...

16得票3回答
在Python中快速/优化N-gram实现

哪个Python中的ngram实现最快?我尝试过评估nltk和scott的zip(http://locallyoptimal.com/blog/2013/01/20/elegant-n-gram-generation-in-python/):from nltk.util import ngra...

16得票1回答
如何使用trec_eval评估搜索/检索引擎?

有没有使用过TREC_EVAL的人?我需要一份“TREC_EVAL入门指南”。 我正在尝试评估几个搜索引擎,以比较召回率-精确度、排名质量等参数,以用于我的论文研究。我找不到如何使用TREC_EVAL向搜索引擎发送查询并获取结果文件以便在TREC_EVAL中使用。

16得票1回答
Apache Solr中的相关反馈

我将为您翻译编程相关内容。以下是需要翻译的内容:我希望在Solr中实现相关反馈。Solr已经有一个更多类似于此的功能:给定一个单一文档,返回一组与输入文档相似度排名较高的类似文档。是否可以配置Solr的More Like This功能,使其像More Like Those一样行事?换句话说:给...

16得票1回答
部分词语的文档搜索

我正在寻找一款文档搜索引擎(比如Xapian、Whoosh、Lucene、Solr、Sphinx或其他),它能够搜索部分词项。 例如,当搜索术语“brit”时,搜索引擎应该返回包含“britney”或“britain”或任何包含匹配r*brit*的单词的文档。 顺带提一下,我注意到大多数引...

15得票3回答
新闻文章的聚类

我的情景非常简单:我有一堆新闻文章(目前大约1k篇),我知道其中有些文章涵盖了同一个故事/主题。现在,我希望能够根据它们的相似性将这些文章分组。 到目前为止,我所做的是应用基本的自然语言处理技术,包括停用词去除和词干提取。我还计算了每篇文章的tf-idf向量,并且基于这些tf-idf向量也可...

15得票1回答
短语查询和使用 shingle 过滤器有什么区别?

我目前正在使用lucene对网页进行索引。目的是能够快速提取包含某个表达式(通常为1、2或3个单词)的页面以及页面中还有哪些其他单词(或1到3个单词的组合)。这将用于构建/丰富/修改词汇表(固定词汇)。 从我找到的文章来看,似乎问题在于找到n-grams(或shingle)。 Lucene...

15得票3回答
获取整个索引中的总词频(Elasticsearch)

我试图计算整个索引中特定术语出现的总次数(术语集合频率)。我尝试使用术语向量来实现这一目标,但这仅限于单个文档。即使在指定文档中存在某些术语的情况下,响应似乎也会在某个doc_count(在field_statistics中)达到最大值,这让我对其准确性产生怀疑。 请求:http://myi...