177得票17回答
Python中的N-grams,四克、五克、六克?

我正在寻找一种将文本拆分为N元组的方法。 通常我会这样做:import nltk from nltk import bigrams string = "I really like python, it's pretty awesome." string_bigrams = bigrams(st...

68得票3回答
Elasticsearch:查找子字符串匹配

我希望您能够进行精确词匹配和部分单词/子字符串匹配。例如,如果我搜索“男士剃须刀”,那么应该能够在结果中找到“男士剃须刀”。但是如果我搜索“en's shaver”,也应该能够在结果中找到“men's shaver”。 我使用以下设置和映射: 索引设置:PUT /my_index { ...

55得票6回答
Python:减少字典的内存使用

我正在尝试将一些文件加载到内存中。这些文件具有以下三种格式之一: string TAB int string TAB float int TAB float 实际上,它们是ngram静态文件,如果这有助于解决问题。例如: i_love TAB 10 love_you TAB 12 ...

55得票5回答
Python中N-Gram、tf-idf和余弦相似度的简单实现

我需要比较存储在数据库中的文档,并得出0到1之间的相似度分数。 我需要使用的方法必须非常简单。实现一个vanilla版本的n-grams(其中可以定义使用多少个grams),以及tf-idf和余弦相似性的简单实现。 是否有任何程序可以做到这一点?还是我应该从头开始编写?

43得票1回答
理解sklearn中CountVectorizer的`ngram_range`参数

我有些困惑如何在Python的scikit-learn库中使用ngrams,特别是在CountVectorizer中ngram_range参数的工作方式。 运行以下代码:from sklearn.feature_extraction.text import CountVectorizer vo...

35得票8回答
使用Python计算N-Grams

我需要计算一个包含以下文本的文本文件的 Unigrams、BiGrams 和 Trigrams: "囊性纤维化仅在美国就影响了 30,000 名儿童和年轻成年人。吸入盐水雾气可以减少囊性纤维化患者呼吸道内充满的脓液和感染,但副作用包括恶心的咳嗽和刺激性味道。这是《新英格兰医学杂志》本周发表的...

32得票7回答
从一个句子中生成N-gram

如何生成一个字符串的n-gram,例如:String Input="This is my car." 我想使用这个输入生成n-gram:Input Ngram size = 3 输出应该是:This is my car This is is my my car This is my is ...

32得票3回答
使用ElasticSearch进行文件名搜索

我想使用ElasticSearch来搜索文件名(而不是文件内容)。因此,我需要找到文件名的一部分(精确匹配,不模糊搜索)。 例子: 我有以下名称的文件:My_first_file_created_at_2012.01.13.doc My_second_file_created_at_2012...

31得票4回答
在Python的nltk中计算n-gram频率

我有以下代码。我知道可以使用apply_freq_filter函数来过滤掉频率计数低于某个值的搭配词。但是,在决定设置过滤器的频率之前,我不知道如何获取文档中所有n元组(在我的情况下是二元组)的频率。正如您所看到的,我正在使用nltk搭配词类。import nltk from nltk.col...

30得票6回答
使用Python在文件中计算bigrams(由两个单词组成的对)

我想使用python统计文件中所有相邻单词对的出现次数(即bigrams),由于我处理的是非常大的文件,所以我正在寻找一种高效的方法。我尝试在文件内容上使用带有正则表达式"\w+\s\w+" 的count方法,但它并不高效。 例如,假设我想从文件a.txt中计算bigrams的数量,该文件具...