最新 'n-gram' 问题 - 第5页

关联标签

16得票3回答

在Python中快速/优化N-gram实现

哪个Python中的ngram实现最快？我尝试过评估nltk和scott的zip（http://locallyoptimal.com/blog/2013/01/20/elegant-n-gram-generation-in-python/）：from nltk.util import ngra...

pythonnlpnltkinformation-retrievaln-gram

7得票2回答

如何在Python的nltk中获取n元搭配和联想？

在这份文档中，有一个使用nltk.collocations.BigramAssocMeasures()、BigramCollocationFinder、nltk.collocations.TrigramAssocMeasures()和TrigramCollocationFinder的示例。 ...

pythonnlpnltkn-gramcollocation

31得票4回答

在Python的nltk中计算n-gram频率

我有以下代码。我知道可以使用apply_freq_filter函数来过滤掉频率计数低于某个值的搭配词。但是，在决定设置过滤器的频率之前，我不知道如何获取文档中所有n元组（在我的情况下是二元组）的频率。正如您所看到的，我正在使用nltk搭配词类。import nltk from nltk.col...

pythonnltkn-gram

16得票3回答

用Python实现高效的1-5克提取方法

我有一个包含3,000,000行的巨大文件，每行都有20-40个单词。我必须从这个语料库中提取1到5个ngram。我的输入文件是已分词的纯文本，例如：This is a foo bar sentence . There is a comma , in this sentence . Such ...

pythonnlpnltkinformation-retrievaln-gram

25得票4回答

Python NLTK：Bigrams、Trigrams和Fourgrams

我有一个示例，想知道如何得到这个结果。我有一段文本，对其进行分词，然后收集二元组、三元组和四元组等。 import nltk from nltk import word_tokenize from nltk.util import ngrams text = "Hi How are you?...

pythonnltkn-gram

10得票1回答

N元语法与朴素贝叶斯分类器

我是Python的新手，需要帮助！我正在使用Python NLTK文本分类练习。这是我正在练习的代码示例： http://www.laurentluce.com/posts/twitter-sentiment-analysis-using-python-and-nltk/ 我尝试过这个。...

pythonnltkn-gram

20得票4回答

基于统计而非词典/表格的“字谜解答器”？

我的问题在概念上类似于解决字谜游戏，但我不能只使用词典查找。我正在尝试寻找可信的单词而不是实际存在的单词。我创建了一个基于一些文本中的字母的N-gram模型（现在，N=2）。现在，给定一个随机序列的字母，我想把它们排列成最可能的序列，根据转移概率。我开始时认为需要使用Viterbi算法，但...

algorithmmachine-learningmathematical-optimizationn-grammarkov

9得票8回答

所有单词中最频繁的n-gram是什么？

我发现了以下的编程面试问题: 挑战1：N-gram N-gram是从给定单词中连续N个字符组成的序列。对于单词"pilot"，有三个3-gram："pil"、"ilo"和"lot"。对于给定的一组单词和n-gram长度，你的任务是： • write a function that f...

calgorithmn-gram

55得票5回答

Python中N-Gram、tf-idf和余弦相似度的简单实现

我需要比较存储在数据库中的文档，并得出0到1之间的相似度分数。我需要使用的方法必须非常简单。实现一个vanilla版本的n-grams（其中可以定义使用多少个grams），以及tf-idf和余弦相似性的简单实现。是否有任何程序可以做到这一点？还是我应该从头开始编写？

pythondocumentn-gramtf-idfvsm

55得票6回答

Python：减少字典的内存使用

我正在尝试将一些文件加载到内存中。这些文件具有以下三种格式之一： string TAB int string TAB float int TAB float 实际上，它们是ngram静态文件，如果这有助于解决问题。例如： i_love TAB 10 love_you TAB 12 ...

pythonmemorydictionarycompressionn-gram