得票数最多 'n-gram' 问题 - 第2页

关联标签

25得票3回答

使用NLTK生成二元组

我正在尝试为给定句子生成二元组列表，例如，如果我键入： To be or not to be 我希望您的程序能够生成。 to be, be or, or not, not to, to be 我尝试了下面的代码，但只是给了我<generator object bigrams...

pythonnltkn-gram

25得票4回答

Python NLTK：Bigrams、Trigrams和Fourgrams

我有一个示例，想知道如何得到这个结果。我有一段文本，对其进行分词，然后收集二元组、三元组和四元组等。 import nltk from nltk import word_tokenize from nltk.util import ngrams text = "Hi How are you?...

pythonnltkn-gram

23得票4回答

快速实现字符n-gram用于单词的处理

我为计算字符二元组编写了以下代码，输出结果如下。我的问题是，如何获得一个不包括最后一个字符（即t）的输出？有没有更快、更有效的方法来计算字符 n-gram？ b='student' >>> y=[] >>> for x in range(len(b)): ...

python-2.7n-gram

21得票3回答

如何在R中高效地从ngram标记列表中去除停用词

这是一个对于一种我已经能够低效地完成的操作提出改进的呼吁：使用“停用词”过滤一系列n-gram标记，使得任何停用词出现在n-gram中都会触发移除。我非常希望有一个解决方案可以同时适用于unigrams和n-grams，虽然有一个“固定”的标志和一个“正则表达式”的标志也可以。我把问题的两...

rperformancen-gramstop-wordstext-analysis

20得票4回答

寻找最佳子字符串匹配

我正在寻找一个库或方法，使用现有的库（difflib、fuzzywuzzy、python-levenshtein），在文本（corpus）中查找与字符串（query）最接近的匹配项。我基于 difflib 开发了一种方法，其中我将我的 corpus 拆分成大小为 n （即 query 的长...

pythonmatchdistancen-gram

20得票4回答

基于统计而非词典/表格的“字谜解答器”？

我的问题在概念上类似于解决字谜游戏，但我不能只使用词典查找。我正在尝试寻找可信的单词而不是实际存在的单词。我创建了一个基于一些文本中的字母的N-gram模型（现在，N=2）。现在，给定一个随机序列的字母，我想把它们排列成最可能的序列，根据转移概率。我开始时认为需要使用Viterbi算法，但...

algorithmmachine-learningmathematical-optimizationn-grammarkov

20得票5回答

如何在Python中计算skipgrams？

一个k skipgram 是一个ngram，它是所有ngrams的超集，并且每个(k-i)skipgram直到(k-i)==0（包括0 skip grams）。那么如何在Python中高效地计算这些skipgrams呢？以下是我尝试过的代码，但它并没有像预期的那样运行： <pre&...

pythonnlpn-gramlanguage-model

18得票2回答

N-grams: 解释及2个应用

我想用n-gram实现一些应用程序（最好是在PHP中）。哪种类型的n-gram对于大多数目的更合适？单词级别的还是字符级别的n-gram？如何在PHP中实现一个n-gram分词器？首先，我想知道什么是N-grams。以下是我理解n-gram的方式：句子：“我住在纽约。” ...

phpnlpanalysisn-gram

18得票4回答

快速计算 n-gram

我正在使用NLTK在语料库中搜索n-gram，但在某些情况下需要花费很长时间。我注意到在其他软件包中计算n-gram并不是一个罕见的功能（显然Haystack有一些相关功能）。这是否意味着如果我放弃NLTK，就有可能找到更快速的方法来寻找我的语料库中的n-gram？如果是这样，我可以使用什么来加速？

pythonnlpnltkn-gram

17得票3回答

在word2vec Gensim中获取bigrams和trigrams

我目前在我的word2vec模型中使用的是单个字词(unigrams)如下所示。def review_to_sentences( review, tokenizer, remove_stopwords=False ): #Returns a list of sentences, whe...

pythontokenizeword2vecgensimn-gram