最新 'n-gram' 问题 - 第3页

关联标签

20得票5回答

如何在Python中计算skipgrams？

一个k skipgram 是一个ngram，它是所有ngrams的超集，并且每个(k-i)skipgram直到(k-i)==0（包括0 skip grams）。那么如何在Python中高效地计算这些skipgrams呢？以下是我尝试过的代码，但它并没有像预期的那样运行： <pre&...

pythonnlpn-gramlanguage-model

68得票3回答

Elasticsearch：查找子字符串匹配

我希望您能够进行精确词匹配和部分单词/子字符串匹配。例如，如果我搜索“男士剃须刀”，那么应该能够在结果中找到“男士剃须刀”。但是如果我搜索“en's shaver”，也应该能够在结果中找到“men's shaver”。我使用以下设置和映射：索引设置：PUT /my_index { ...

autocompleteelasticsearchsubstringstringtokenizern-gram

8得票2回答

理解循环多项式哈希碰撞

我有一个代码，使用循环多项式滚动哈希（Buzhash）计算源代码的n-gram哈希值。如果我使用小的哈希值（7-8位），那么会出现一些碰撞，即不同的n-gram映射到相同的哈希值。如果我将哈希值中的位数增加到31，那么就没有碰撞了——所有的n-gram都映射到不同的哈希值。我想知道为什么会...

hashn-gramhash-collision

7得票2回答

TF-IDF向量化器用于提取ngram

我该如何使用scikit-learn库中的TF-IDF向量化器提取推文的unigrams和bigrams？我想用输出结果来训练分类器。以下是scikit-learn的代码： from sklearn.feature_extraction.text import TfidfVectoriz...

pythonscikit-learnn-gramtfidfvectorizer

55得票5回答

Python中N-Gram、tf-idf和余弦相似度的简单实现

我需要比较存储在数据库中的文档，并得出0到1之间的相似度分数。我需要使用的方法必须非常简单。实现一个vanilla版本的n-grams（其中可以定义使用多少个grams），以及tf-idf和余弦相似性的简单实现。是否有任何程序可以做到这一点？还是我应该从头开始编写？

pythondocumentn-gramtf-idfvsm

18得票4回答

快速计算 n-gram

我正在使用NLTK在语料库中搜索n-gram，但在某些情况下需要花费很长时间。我注意到在其他软件包中计算n-gram并不是一个罕见的功能（显然Haystack有一些相关功能）。这是否意味着如果我放弃NLTK，就有可能找到更快速的方法来寻找我的语料库中的n-gram？如果是这样，我可以使用什么来加速？

pythonnlpnltkn-gram

8得票3回答

如何在Scala中生成n-gram？

我正在尝试使用n-gram在Scala中编写分离式新闻报道算法。如何为大文件生成n-gram：例如，对于包含“the bee is the bee of the bees”文本的文件：首先，它必须选择一个随机的n-gram。例如，“the bee”。然后，它必须查找以(n-1)个单...

scalan-gram

8得票1回答

在Python中训练NGram模型

我正在使用Anaconda安装和管理的Python 3.5。我想要使用一些文本来训练NGramModel (来自nltk)。但我的安装找不到模块nltk.model。以下是可能的答案（选择正确答案并解释如何操作）：可以使用conda安装不同版本的nltk，以便包含模块。这不仅仅是旧版...

pythonpython-3.xnltkn-gram

7得票2回答

Elasticsearch - EdgeNgram + highlight + term_vector = 不好的高亮显示效果

当我使用edgengram（min=3，max=7，front）+ term_vector=with_positions_offsets的分析器时文档中有文本 =“CouchDB” 当我搜索“couc”时我的高亮显示在“cou”而不是“couc”上看起来我的高亮只在最小匹配标...

javasearchluceneelasticsearchn-gram

35得票8回答

使用Python计算N-Grams

我需要计算一个包含以下文本的文本文件的 Unigrams、BiGrams 和 Trigrams： "囊性纤维化仅在美国就影响了 30,000 名儿童和年轻成年人。吸入盐水雾气可以减少囊性纤维化患者呼吸道内充满的脓液和感染，但副作用包括恶心的咳嗽和刺激性味道。这是《新英格兰医学杂志》本周发表的...

pythonnlpnltkn-gram