最新 'n-gram' 问题 - 第4页

关联标签

8得票3回答

字节、字符、词语——哪种粒度适合用于n-grams？

至少有3种类型的n-gram可用于表示文本文档：字节级n-gram 字符级n-gram 词级n-gram 我不确定在特定任务（聚类，分类等）中应该使用哪一种。我在某个地方读到，当文本包含拼写错误时，字符级n-gram比词级n-gram更受青睐，这样“Mary loves dogs”就...

nlpdata-miningtext-miningn-gram

7得票2回答

TF-IDF向量化器用于提取ngram

我该如何使用scikit-learn库中的TF-IDF向量化器提取推文的unigrams和bigrams？我想用输出结果来训练分类器。以下是scikit-learn的代码： from sklearn.feature_extraction.text import TfidfVectoriz...

pythonscikit-learnn-gramtfidfvectorizer

12得票3回答

如何使用spacy/nltk生成二元/三元组

输入文本始终是菜名列表，其中包含1~3个形容词和一个名词输入thai iced tea spicy fried chicken sweet chili pork thai chicken curry 输出：thai tea, iced tea spicy chicken, fried ch...

pythonnlpnltkn-gramspacy

17得票3回答

在word2vec Gensim中获取bigrams和trigrams

我目前在我的word2vec模型中使用的是单个字词(unigrams)如下所示。def review_to_sentences( review, tokenizer, remove_stopwords=False ): #Returns a list of sentences, whe...

pythontokenizeword2vecgensimn-gram

68得票3回答

Elasticsearch：查找子字符串匹配

我希望您能够进行精确词匹配和部分单词/子字符串匹配。例如，如果我搜索“男士剃须刀”，那么应该能够在结果中找到“男士剃须刀”。但是如果我搜索“en's shaver”，也应该能够在结果中找到“men's shaver”。我使用以下设置和映射：索引设置：PUT /my_index { ...

autocompleteelasticsearchsubstringstringtokenizern-gram

8得票3回答

字符序列预测？

我刚开始学习机器学习，所以希望您能对这个问题宽容一点。我有一串观测到的字符序列，例如ABABBABBB......（n个字符）。我的目标是通过某种“学习”机制来预测下一个字符。但限制是：训练数据即观测到的字符数量不多。换言之，我只有一段长度为6000的序列，用于学习其中的潜在规律。我对...

textmachine-learningneural-networklstmn-gram

55得票5回答

Python中N-Gram、tf-idf和余弦相似度的简单实现

我需要比较存储在数据库中的文档，并得出0到1之间的相似度分数。我需要使用的方法必须非常简单。实现一个vanilla版本的n-grams（其中可以定义使用多少个grams），以及tf-idf和余弦相似性的简单实现。是否有任何程序可以做到这一点？还是我应该从头开始编写？

pythondocumentn-gramtf-idfvsm

25得票3回答

使用NLTK生成二元组

我正在尝试为给定句子生成二元组列表，例如，如果我键入： To be or not to be 我希望您的程序能够生成。 to be, be or, or not, not to, to be 我尝试了下面的代码，但只是给了我<generator object bigrams...

pythonnltkn-gram

20得票4回答

基于统计而非词典/表格的“字谜解答器”？

我的问题在概念上类似于解决字谜游戏，但我不能只使用词典查找。我正在尝试寻找可信的单词而不是实际存在的单词。我创建了一个基于一些文本中的字母的N-gram模型（现在，N=2）。现在，给定一个随机序列的字母，我想把它们排列成最可能的序列，根据转移概率。我开始时认为需要使用Viterbi算法，但...

algorithmmachine-learningmathematical-optimizationn-grammarkov

16得票3回答

用Python实现高效的1-5克提取方法

我有一个包含3,000,000行的巨大文件，每行都有20-40个单词。我必须从这个语料库中提取1到5个ngram。我的输入文件是已分词的纯文本，例如：This is a foo bar sentence . There is a comma , in this sentence . Such ...

pythonnlpnltkinformation-retrievaln-gram