20得票5回答
如何在Python中计算skipgrams?

一个k skipgram 是一个ngram,它是所有ngrams的超集,并且每个(k-i)skipgram直到(k-i)==0(包括0 skip grams)。那么如何在Python中高效地计算这些skipgrams呢? 以下是我尝试过的代码,但它并没有像预期的那样运行: <pre&...

68得票3回答
Elasticsearch:查找子字符串匹配

我希望您能够进行精确词匹配和部分单词/子字符串匹配。例如,如果我搜索“男士剃须刀”,那么应该能够在结果中找到“男士剃须刀”。但是如果我搜索“en's shaver”,也应该能够在结果中找到“men's shaver”。 我使用以下设置和映射: 索引设置:PUT /my_index { ...

8得票2回答
理解循环多项式哈希碰撞

我有一个代码,使用循环多项式滚动哈希(Buzhash)计算源代码的n-gram哈希值。如果我使用小的哈希值(7-8位),那么会出现一些碰撞,即不同的n-gram映射到相同的哈希值。如果我将哈希值中的位数增加到31,那么就没有碰撞了——所有的n-gram都映射到不同的哈希值。 我想知道为什么会...

7得票2回答
TF-IDF向量化器用于提取ngram

我该如何使用scikit-learn库中的TF-IDF向量化器提取推文的unigrams和bigrams?我想用输出结果来训练分类器。 以下是scikit-learn的代码: from sklearn.feature_extraction.text import TfidfVectoriz...

55得票5回答
Python中N-Gram、tf-idf和余弦相似度的简单实现

我需要比较存储在数据库中的文档,并得出0到1之间的相似度分数。 我需要使用的方法必须非常简单。实现一个vanilla版本的n-grams(其中可以定义使用多少个grams),以及tf-idf和余弦相似性的简单实现。 是否有任何程序可以做到这一点?还是我应该从头开始编写?

18得票4回答
快速计算 n-gram

我正在使用NLTK在语料库中搜索n-gram,但在某些情况下需要花费很长时间。我注意到在其他软件包中计算n-gram并不是一个罕见的功能(显然Haystack有一些相关功能)。这是否意味着如果我放弃NLTK,就有可能找到更快速的方法来寻找我的语料库中的n-gram?如果是这样,我可以使用什么来加速?

8得票3回答
如何在Scala中生成n-gram?

我正在尝试使用n-gram在Scala中编写分离式新闻报道算法。 如何为大文件生成n-gram: 例如,对于包含“the bee is the bee of the bees”文本的文件: 首先,它必须选择一个随机的n-gram。例如,“the bee”。 然后,它必须查找以(n-1)个单...

8得票1回答
在Python中训练NGram模型

我正在使用Anaconda安装和管理的Python 3.5。我想要使用一些文本来训练NGramModel (来自nltk)。但我的安装找不到模块nltk.model。 以下是可能的答案(选择正确答案并解释如何操作): 可以使用conda安装不同版本的nltk,以便包含模块。这不仅仅是旧版...

7得票2回答
Elasticsearch - EdgeNgram + highlight + term_vector = 不好的高亮显示效果

当我使用edgengram(min=3,max=7,front)+ term_vector=with_positions_offsets的分析器时 文档中有文本 =“CouchDB” 当我搜索“couc”时 我的高亮显示在“cou”而不是“couc”上 看起来我的高亮只在最小匹配标...

35得票8回答
使用Python计算N-Grams

我需要计算一个包含以下文本的文本文件的 Unigrams、BiGrams 和 Trigrams: "囊性纤维化仅在美国就影响了 30,000 名儿童和年轻成年人。吸入盐水雾气可以减少囊性纤维化患者呼吸道内充满的脓液和感染,但副作用包括恶心的咳嗽和刺激性味道。这是《新英格兰医学杂志》本周发表的...