25得票3回答
使用NLTK生成二元组

我正在尝试为给定句子生成二元组列表,例如,如果我键入: To be or not to be 我希望您的程序能够生成。 to be, be or, or not, not to, to be 我尝试了下面的代码,但只是给了我<generator object bigrams...

25得票4回答
Python NLTK:Bigrams、Trigrams和Fourgrams

我有一个示例,想知道如何得到这个结果。我有一段文本,对其进行分词,然后收集二元组、三元组和四元组等。 import nltk from nltk import word_tokenize from nltk.util import ngrams text = "Hi How are you?...

23得票4回答
快速实现字符n-gram用于单词的处理

我为计算字符二元组编写了以下代码,输出结果如下。我的问题是,如何获得一个不包括最后一个字符(即t)的输出?有没有更快、更有效的方法来计算字符 n-gram? b='student' >>> y=[] >>> for x in range(len(b)): ...

21得票3回答
如何在R中高效地从ngram标记列表中去除停用词

这是一个对于一种我已经能够低效地完成的操作提出改进的呼吁:使用“停用词”过滤一系列n-gram标记,使得任何停用词出现在n-gram中都会触发移除。 我非常希望有一个解决方案可以同时适用于unigrams和n-grams,虽然有一个“固定”的标志和一个“正则表达式”的标志也可以。我把问题的两...

20得票4回答
寻找最佳子字符串匹配

我正在寻找一个库或方法,使用现有的库(difflib、fuzzywuzzy、python-levenshtein),在文本(corpus)中查找与字符串(query)最接近的匹配项。 我基于 difflib 开发了一种方法,其中我将我的 corpus 拆分成大小为 n (即 query 的长...

20得票4回答
基于统计而非词典/表格的“字谜解答器”?

我的问题在概念上类似于解决字谜游戏,但我不能只使用词典查找。我正在尝试寻找可信的单词而不是实际存在的单词。 我创建了一个基于一些文本中的字母的N-gram模型(现在,N=2)。现在,给定一个随机序列的字母,我想把它们排列成最可能的序列,根据转移概率。我开始时认为需要使用Viterbi算法,但...

20得票5回答
如何在Python中计算skipgrams?

一个k skipgram 是一个ngram,它是所有ngrams的超集,并且每个(k-i)skipgram直到(k-i)==0(包括0 skip grams)。那么如何在Python中高效地计算这些skipgrams呢? 以下是我尝试过的代码,但它并没有像预期的那样运行: <pre&...

18得票2回答
N-grams: 解释及2个应用

我想用n-gram实现一些应用程序(最好是在PHP中)。 哪种类型的n-gram对于大多数目的更合适?单词级别的还是字符级别的n-gram?如何在PHP中实现一个n-gram分词器? 首先,我想知道什么是N-grams。以下是我理解n-gram的方式: 句子:“我住在纽约。” ...

18得票4回答
快速计算 n-gram

我正在使用NLTK在语料库中搜索n-gram,但在某些情况下需要花费很长时间。我注意到在其他软件包中计算n-gram并不是一个罕见的功能(显然Haystack有一些相关功能)。这是否意味着如果我放弃NLTK,就有可能找到更快速的方法来寻找我的语料库中的n-gram?如果是这样,我可以使用什么来加速?

17得票3回答
在word2vec Gensim中获取bigrams和trigrams

我目前在我的word2vec模型中使用的是单个字词(unigrams)如下所示。def review_to_sentences( review, tokenizer, remove_stopwords=False ): #Returns a list of sentences, whe...