30得票6回答
使用Python在文件中计算bigrams(由两个单词组成的对)

我想使用python统计文件中所有相邻单词对的出现次数(即bigrams),由于我处理的是非常大的文件,所以我正在寻找一种高效的方法。我尝试在文件内容上使用带有正则表达式"\w+\s\w+" 的count方法,但它并不高效。 例如,假设我想从文件a.txt中计算bigrams的数量,该文件具...

7得票2回答
如何在Python的nltk中获取n元搭配和联想?

在这份文档中,有一个使用nltk.collocations.BigramAssocMeasures()、BigramCollocationFinder、nltk.collocations.TrigramAssocMeasures()和TrigramCollocationFinder的示例。 ...

10得票2回答
Python接口与ARPA文件

我正在寻找一个Python接口来加载ARPA文件(回退语言模型),并使用它们评估一些文本,例如获取其对数概率、困惑度等。 我不需要在Python中生成ARPA文件,只需要用它来查询。 是否有推荐的软件包? 我已经看到了kenlm和swig-srilm,但第一个在Windows上设置非常困难...

25得票4回答
Python NLTK:Bigrams、Trigrams和Fourgrams

我有一个示例,想知道如何得到这个结果。我有一段文本,对其进行分词,然后收集二元组、三元组和四元组等。 import nltk from nltk import word_tokenize from nltk.util import ngrams text = "Hi How are you?...

14得票1回答
NLTK中的Ngram模型和困惑度

为了让我的问题有上下文,我想要训练和测试/比较几个(神经)语言模型。为了专注于模型而不是数据准备,我选择使用nltk中的Brown语料库,并使用nltk提供的Ngrams模型作为基准进行比较。 因此,我的第一个问题实际上是关于nltk的Ngram模型行为的可疑之处。由于代码相当简短,我在这里...

14得票2回答
使用5万个单词创建ARPA语言模型文件

我想创建一个包含近50000个单词的ARPA语言模型文件。我无法通过将我的文本文件传递给CMU Language Tool来生成语言模型。是否有其他链接可以获取这么多单词的语言模型?

11得票2回答
NLTK包用于估计(一元)困惑度。

我正在尝试计算我拥有的数据的困惑度。我使用的代码是: import sys sys.path.append("/usr/local/anaconda/lib/python2.7/site-packages/nltk") from nltk.corpus import brown from ...

9得票2回答
在Python NLTK中查找三元组条件概率

我开始学习NLTK,并且正在跟随这里的教程,他们使用bigrams来计算条件概率。 import nltk from nltk.corpus import brown cfreq_brown_2gram = nltk.ConditionalFreqDist(nltk.bigrams(brow...

35得票8回答
使用Python计算N-Grams

我需要计算一个包含以下文本的文本文件的 Unigrams、BiGrams 和 Trigrams: "囊性纤维化仅在美国就影响了 30,000 名儿童和年轻成年人。吸入盐水雾气可以减少囊性纤维化患者呼吸道内充满的脓液和感染,但副作用包括恶心的咳嗽和刺激性味道。这是《新英格兰医学杂志》本周发表的...

16得票3回答
在Python中快速/优化N-gram实现

哪个Python中的ngram实现最快?我尝试过评估nltk和scott的zip(http://locallyoptimal.com/blog/2013/01/20/elegant-n-gram-generation-in-python/):from nltk.util import ngra...