最新 'n-gram' 问题

关联标签

30得票6回答

使用Python在文件中计算bigrams（由两个单词组成的对）

我想使用python统计文件中所有相邻单词对的出现次数（即bigrams），由于我处理的是非常大的文件，所以我正在寻找一种高效的方法。我尝试在文件内容上使用带有正则表达式"\w+\s\w+" 的count方法，但它并不高效。例如，假设我想从文件a.txt中计算bigrams的数量，该文件具...

pythonregexn-gram

7得票2回答

如何在Python的nltk中获取n元搭配和联想？

在这份文档中，有一个使用nltk.collocations.BigramAssocMeasures()、BigramCollocationFinder、nltk.collocations.TrigramAssocMeasures()和TrigramCollocationFinder的示例。 ...

pythonnlpnltkn-gramcollocation

10得票2回答

Python接口与ARPA文件

我正在寻找一个Python接口来加载ARPA文件（回退语言模型），并使用它们评估一些文本，例如获取其对数概率、困惑度等。我不需要在Python中生成ARPA文件，只需要用它来查询。是否有推荐的软件包？我已经看到了kenlm和swig-srilm，但第一个在Windows上设置非常困难...

pythonnlpn-gramlanguage-model

25得票4回答

Python NLTK：Bigrams、Trigrams和Fourgrams

我有一个示例，想知道如何得到这个结果。我有一段文本，对其进行分词，然后收集二元组、三元组和四元组等。 import nltk from nltk import word_tokenize from nltk.util import ngrams text = "Hi How are you?...

pythonnltkn-gram

14得票1回答

NLTK中的Ngram模型和困惑度

为了让我的问题有上下文，我想要训练和测试/比较几个（神经）语言模型。为了专注于模型而不是数据准备，我选择使用nltk中的Brown语料库，并使用nltk提供的Ngrams模型作为基准进行比较。因此，我的第一个问题实际上是关于nltk的Ngram模型行为的可疑之处。由于代码相当简短，我在这里...

pythonnltkn-gram

14得票2回答

使用5万个单词创建ARPA语言模型文件

我想创建一个包含近50000个单词的ARPA语言模型文件。我无法通过将我的文本文件传递给CMU Language Tool来生成语言模型。是否有其他链接可以获取这么多单词的语言模型?

speech-recognitioncmusphinxn-gramlanguage-model

11得票2回答

NLTK包用于估计（一元）困惑度。

我正在尝试计算我拥有的数据的困惑度。我使用的代码是： import sys sys.path.append("/usr/local/anaconda/lib/python2.7/site-packages/nltk") from nltk.corpus import brown from ...

python-2.7nlpnltkn-gramlanguage-model

9得票2回答

在Python NLTK中查找三元组条件概率

我开始学习NLTK，并且正在跟随这里的教程，他们使用bigrams来计算条件概率。 import nltk from nltk.corpus import brown cfreq_brown_2gram = nltk.ConditionalFreqDist(nltk.bigrams(brow...

pythonnlpnltkn-gram

35得票8回答

使用Python计算N-Grams

我需要计算一个包含以下文本的文本文件的 Unigrams、BiGrams 和 Trigrams： "囊性纤维化仅在美国就影响了 30,000 名儿童和年轻成年人。吸入盐水雾气可以减少囊性纤维化患者呼吸道内充满的脓液和感染，但副作用包括恶心的咳嗽和刺激性味道。这是《新英格兰医学杂志》本周发表的...

pythonnlpnltkn-gram

16得票3回答

在Python中快速/优化N-gram实现

哪个Python中的ngram实现最快？我尝试过评估nltk和scott的zip（http://locallyoptimal.com/blog/2013/01/20/elegant-n-gram-generation-in-python/）：from nltk.util import ngra...

pythonnlpnltkinformation-retrievaln-gram