8得票3回答
字节、字符、词语——哪种粒度适合用于n-grams?

至少有3种类型的n-gram可用于表示文本文档: 字节级n-gram 字符级n-gram 词级n-gram 我不确定在特定任务(聚类,分类等)中应该使用哪一种。我在某个地方读到,当文本包含拼写错误时,字符级n-gram比词级n-gram更受青睐,这样“Mary loves dogs”就...

7得票2回答
TF-IDF向量化器用于提取ngram

我该如何使用scikit-learn库中的TF-IDF向量化器提取推文的unigrams和bigrams?我想用输出结果来训练分类器。 以下是scikit-learn的代码: from sklearn.feature_extraction.text import TfidfVectoriz...

12得票3回答
如何使用spacy/nltk生成二元/三元组

输入文本始终是菜名列表,其中包含1~3个形容词和一个名词 输入thai iced tea spicy fried chicken sweet chili pork thai chicken curry 输出:thai tea, iced tea spicy chicken, fried ch...

17得票3回答
在word2vec Gensim中获取bigrams和trigrams

我目前在我的word2vec模型中使用的是单个字词(unigrams)如下所示。def review_to_sentences( review, tokenizer, remove_stopwords=False ): #Returns a list of sentences, whe...

68得票3回答
Elasticsearch:查找子字符串匹配

我希望您能够进行精确词匹配和部分单词/子字符串匹配。例如,如果我搜索“男士剃须刀”,那么应该能够在结果中找到“男士剃须刀”。但是如果我搜索“en's shaver”,也应该能够在结果中找到“men's shaver”。 我使用以下设置和映射: 索引设置:PUT /my_index { ...

8得票3回答
字符序列预测?

我刚开始学习机器学习,所以希望您能对这个问题宽容一点。 我有一串观测到的字符序列,例如ABABBABBB......(n个字符)。我的目标是通过某种“学习”机制来预测下一个字符。但限制是:训练数据即观测到的字符数量不多。换言之,我只有一段长度为6000的序列,用于学习其中的潜在规律。 我对...

55得票5回答
Python中N-Gram、tf-idf和余弦相似度的简单实现

我需要比较存储在数据库中的文档,并得出0到1之间的相似度分数。 我需要使用的方法必须非常简单。实现一个vanilla版本的n-grams(其中可以定义使用多少个grams),以及tf-idf和余弦相似性的简单实现。 是否有任何程序可以做到这一点?还是我应该从头开始编写?

25得票3回答
使用NLTK生成二元组

我正在尝试为给定句子生成二元组列表,例如,如果我键入: To be or not to be 我希望您的程序能够生成。 to be, be or, or not, not to, to be 我尝试了下面的代码,但只是给了我<generator object bigrams...

20得票4回答
基于统计而非词典/表格的“字谜解答器”?

我的问题在概念上类似于解决字谜游戏,但我不能只使用词典查找。我正在尝试寻找可信的单词而不是实际存在的单词。 我创建了一个基于一些文本中的字母的N-gram模型(现在,N=2)。现在,给定一个随机序列的字母,我想把它们排列成最可能的序列,根据转移概率。我开始时认为需要使用Viterbi算法,但...

16得票3回答
用Python实现高效的1-5克提取方法

我有一个包含3,000,000行的巨大文件,每行都有20-40个单词。我必须从这个语料库中提取1到5个ngram。我的输入文件是已分词的纯文本,例如:This is a foo bar sentence . There is a comma , in this sentence . Such ...