得票数最多 'n-gram' 问题

关联标签

177得票17回答

Python中的N-grams，四克、五克、六克？

我正在寻找一种将文本拆分为N元组的方法。通常我会这样做：import nltk from nltk import bigrams string = "I really like python, it's pretty awesome." string_bigrams = bigrams(st...

pythonstringnltkn-gram

68得票3回答

Elasticsearch：查找子字符串匹配

我希望您能够进行精确词匹配和部分单词/子字符串匹配。例如，如果我搜索“男士剃须刀”，那么应该能够在结果中找到“男士剃须刀”。但是如果我搜索“en's shaver”，也应该能够在结果中找到“men's shaver”。我使用以下设置和映射：索引设置：PUT /my_index { ...

autocompleteelasticsearchsubstringstringtokenizern-gram

55得票6回答

Python：减少字典的内存使用

我正在尝试将一些文件加载到内存中。这些文件具有以下三种格式之一： string TAB int string TAB float int TAB float 实际上，它们是ngram静态文件，如果这有助于解决问题。例如： i_love TAB 10 love_you TAB 12 ...

pythonmemorydictionarycompressionn-gram

55得票5回答

Python中N-Gram、tf-idf和余弦相似度的简单实现

我需要比较存储在数据库中的文档，并得出0到1之间的相似度分数。我需要使用的方法必须非常简单。实现一个vanilla版本的n-grams（其中可以定义使用多少个grams），以及tf-idf和余弦相似性的简单实现。是否有任何程序可以做到这一点？还是我应该从头开始编写？

pythondocumentn-gramtf-idfvsm

43得票1回答

理解sklearn中CountVectorizer的`ngram_range`参数

我有些困惑如何在Python的scikit-learn库中使用ngrams，特别是在CountVectorizer中ngram_range参数的工作方式。运行以下代码：from sklearn.feature_extraction.text import CountVectorizer vo...

pythonscikit-learnn-gramfeature-selection

35得票8回答

使用Python计算N-Grams

我需要计算一个包含以下文本的文本文件的 Unigrams、BiGrams 和 Trigrams： "囊性纤维化仅在美国就影响了 30,000 名儿童和年轻成年人。吸入盐水雾气可以减少囊性纤维化患者呼吸道内充满的脓液和感染，但副作用包括恶心的咳嗽和刺激性味道。这是《新英格兰医学杂志》本周发表的...

pythonnlpnltkn-gram

32得票7回答

从一个句子中生成N-gram

如何生成一个字符串的n-gram，例如：String Input="This is my car." 我想使用这个输入生成n-gram：Input Ngram size = 3 输出应该是：This is my car This is is my my car This is my is ...

javalucenenlpn-gram

32得票3回答

使用ElasticSearch进行文件名搜索

我想使用ElasticSearch来搜索文件名（而不是文件内容）。因此，我需要找到文件名的一部分（精确匹配，不模糊搜索）。例子：我有以下名称的文件：My_first_file_created_at_2012.01.13.doc My_second_file_created_at_2012...

luceneelasticsearchn-gram

31得票4回答

在Python的nltk中计算n-gram频率

我有以下代码。我知道可以使用apply_freq_filter函数来过滤掉频率计数低于某个值的搭配词。但是，在决定设置过滤器的频率之前，我不知道如何获取文档中所有n元组（在我的情况下是二元组）的频率。正如您所看到的，我正在使用nltk搭配词类。import nltk from nltk.col...

pythonnltkn-gram

30得票6回答

使用Python在文件中计算bigrams（由两个单词组成的对）

我想使用python统计文件中所有相邻单词对的出现次数（即bigrams），由于我处理的是非常大的文件，所以我正在寻找一种高效的方法。我尝试在文件内容上使用带有正则表达式"\w+\s\w+" 的count方法，但它并不高效。例如，假设我想从文件a.txt中计算bigrams的数量，该文件具...

pythonregexn-gram