16得票3回答
在Python中快速/优化N-gram实现

哪个Python中的ngram实现最快?我尝试过评估nltk和scott的zip(http://locallyoptimal.com/blog/2013/01/20/elegant-n-gram-generation-in-python/):from nltk.util import ngra...

7得票2回答
如何在Python的nltk中获取n元搭配和联想?

在这份文档中,有一个使用nltk.collocations.BigramAssocMeasures()、BigramCollocationFinder、nltk.collocations.TrigramAssocMeasures()和TrigramCollocationFinder的示例。 ...

31得票4回答
在Python的nltk中计算n-gram频率

我有以下代码。我知道可以使用apply_freq_filter函数来过滤掉频率计数低于某个值的搭配词。但是,在决定设置过滤器的频率之前,我不知道如何获取文档中所有n元组(在我的情况下是二元组)的频率。正如您所看到的,我正在使用nltk搭配词类。import nltk from nltk.col...

16得票3回答
用Python实现高效的1-5克提取方法

我有一个包含3,000,000行的巨大文件,每行都有20-40个单词。我必须从这个语料库中提取1到5个ngram。我的输入文件是已分词的纯文本,例如:This is a foo bar sentence . There is a comma , in this sentence . Such ...

25得票4回答
Python NLTK:Bigrams、Trigrams和Fourgrams

我有一个示例,想知道如何得到这个结果。我有一段文本,对其进行分词,然后收集二元组、三元组和四元组等。 import nltk from nltk import word_tokenize from nltk.util import ngrams text = "Hi How are you?...

10得票1回答
N元语法与朴素贝叶斯分类器

我是Python的新手,需要帮助! 我正在使用Python NLTK文本分类练习。 这是我正在练习的代码示例: http://www.laurentluce.com/posts/twitter-sentiment-analysis-using-python-and-nltk/ 我尝试过这个。...

20得票4回答
基于统计而非词典/表格的“字谜解答器”?

我的问题在概念上类似于解决字谜游戏,但我不能只使用词典查找。我正在尝试寻找可信的单词而不是实际存在的单词。 我创建了一个基于一些文本中的字母的N-gram模型(现在,N=2)。现在,给定一个随机序列的字母,我想把它们排列成最可能的序列,根据转移概率。我开始时认为需要使用Viterbi算法,但...

9得票8回答
所有单词中最频繁的n-gram是什么?

我发现了以下的编程面试问题: 挑战1:N-gram N-gram是从给定单词中连续N个字符组成的序列。对于单词"pilot",有三个3-gram:"pil"、"ilo"和"lot"。 对于给定的一组单词和n-gram长度, 你的任务是: • write a function that f...

55得票5回答
Python中N-Gram、tf-idf和余弦相似度的简单实现

我需要比较存储在数据库中的文档,并得出0到1之间的相似度分数。 我需要使用的方法必须非常简单。实现一个vanilla版本的n-grams(其中可以定义使用多少个grams),以及tf-idf和余弦相似性的简单实现。 是否有任何程序可以做到这一点?还是我应该从头开始编写?

55得票6回答
Python:减少字典的内存使用

我正在尝试将一些文件加载到内存中。这些文件具有以下三种格式之一: string TAB int string TAB float int TAB float 实际上,它们是ngram静态文件,如果这有助于解决问题。例如: i_love TAB 10 love_you TAB 12 ...