9得票2回答
ElasticSearch n-gram tokenfilter不能找到部分单词

我一直在为我的新项目玩弄ElasticSearch。我已将默认分析器设置为使用ngram令牌过滤器。这是我的elasticsearch.yml文件: index: analysis: analyzer: default_index: token...

9得票5回答
为文件中的每个单词创建一个字典,并计算其后跟随的单词的频率。

我正在尝试解决一个困难的问题,但很迷茫。 这是我的任务: INPUT: file OUTPUT: dictionary Return a dictionary whose keys are all the words in the file (broken by whitespace)....

9得票2回答
在Python NLTK中查找三元组条件概率

我开始学习NLTK,并且正在跟随这里的教程,他们使用bigrams来计算条件概率。 import nltk from nltk.corpus import brown cfreq_brown_2gram = nltk.ConditionalFreqDist(nltk.bigrams(brow...

9得票5回答
当需要考虑超过两个或三个连续单词的组合时,n元语法(n>3)比仅使用二元组或三元组更为重要。

我想知道在计算n-gram时,包括n>3的使用频率时,考虑到计算开销,它们的用途是什么。是否存在一些应用程序,其中bigrams或trigrams并不足够? 如果有的话,n-gram提取的最新技术是什么?有什么建议吗?我已经了解了以下内容: 一种新的n-gram统计方法,用于从大量...

9得票2回答
ElasticSearch使用ngram词项的“最佳匹配”而不是“同义词”?

能否告诉ElasticSearch使用所有字元的“最佳匹配”而非使用字元作为同义词? 默认情况下,ElasticSearch使用字元作为同义词,并返回匹配不良的文档。最好用例子来说明,假设我们在索引中有两个人: alice wang sarah kerry 我们正在搜索 ali1234...

9得票8回答
所有单词中最频繁的n-gram是什么?

我发现了以下的编程面试问题: 挑战1:N-gram N-gram是从给定单词中连续N个字符组成的序列。对于单词"pilot",有三个3-gram:"pil"、"ilo"和"lot"。 对于给定的一组单词和n-gram长度, 你的任务是: • write a function that f...

8得票3回答
如何在Scala中生成n-gram?

我正在尝试使用n-gram在Scala中编写分离式新闻报道算法。 如何为大文件生成n-gram: 例如,对于包含“the bee is the bee of the bees”文本的文件: 首先,它必须选择一个随机的n-gram。例如,“the bee”。 然后,它必须查找以(n-1)个单...

8得票2回答
快速计算双连词(使用或不使用多进程)- Python

给定norvig.com/big.txt中的big.txt,目标是快速计算二元组(想象一下我需要重复这个计数100,000次)。 根据Fast/Optimize N-gram implementations in python,像这样提取二元组将是最优的: _bigrams = zip(*...

8得票1回答
在Python中训练NGram模型

我正在使用Anaconda安装和管理的Python 3.5。我想要使用一些文本来训练NGramModel (来自nltk)。但我的安装找不到模块nltk.model。 以下是可能的答案(选择正确答案并解释如何操作): 可以使用conda安装不同版本的nltk,以便包含模块。这不仅仅是旧版...

8得票3回答
字符序列预测?

我刚开始学习机器学习,所以希望您能对这个问题宽容一点。 我有一串观测到的字符序列,例如ABABBABBB......(n个字符)。我的目标是通过某种“学习”机制来预测下一个字符。但限制是:训练数据即观测到的字符数量不多。换言之,我只有一段长度为6000的序列,用于学习其中的潜在规律。 我对...