得票数最多 'n-gram' 问题 - 第5页

关联标签

9得票2回答

我一直在为我的新项目玩弄ElasticSearch。我已将默认分析器设置为使用ngram令牌过滤器。这是我的elasticsearch.yml文件： index: analysis: analyzer: default_index: token...

9得票5回答

我正在尝试解决一个困难的问题，但很迷茫。这是我的任务： INPUT: file OUTPUT: dictionary Return a dictionary whose keys are all the words in the file (broken by whitespace)....

9得票2回答

我开始学习NLTK，并且正在跟随这里的教程，他们使用bigrams来计算条件概率。 import nltk from nltk.corpus import brown cfreq_brown_2gram = nltk.ConditionalFreqDist(nltk.bigrams(brow...

9得票5回答

我想知道在计算n-gram时，包括n>3的使用频率时，考虑到计算开销，它们的用途是什么。是否存在一些应用程序，其中bigrams或trigrams并不足够？如果有的话，n-gram提取的最新技术是什么？有什么建议吗？我已经了解了以下内容：一种新的n-gram统计方法，用于从大量...

9得票2回答

能否告诉ElasticSearch使用所有字元的“最佳匹配”而非使用字元作为同义词？默认情况下，ElasticSearch使用字元作为同义词，并返回匹配不良的文档。最好用例子来说明，假设我们在索引中有两个人： alice wang sarah kerry 我们正在搜索 ali1234...

9得票8回答

我发现了以下的编程面试问题: 挑战1：N-gram N-gram是从给定单词中连续N个字符组成的序列。对于单词"pilot"，有三个3-gram："pil"、"ilo"和"lot"。对于给定的一组单词和n-gram长度，你的任务是： • write a function that f...

8得票3回答

我正在尝试使用n-gram在Scala中编写分离式新闻报道算法。如何为大文件生成n-gram：例如，对于包含“the bee is the bee of the bees”文本的文件：首先，它必须选择一个随机的n-gram。例如，“the bee”。然后，它必须查找以(n-1)个单...

8得票2回答

给定norvig.com/big.txt中的big.txt，目标是快速计算二元组（想象一下我需要重复这个计数100,000次）。根据Fast/Optimize N-gram implementations in python，像这样提取二元组将是最优的： _bigrams = zip(*...

8得票1回答

我正在使用Anaconda安装和管理的Python 3.5。我想要使用一些文本来训练NGramModel (来自nltk)。但我的安装找不到模块nltk.model。以下是可能的答案（选择正确答案并解释如何操作）：可以使用conda安装不同版本的nltk，以便包含模块。这不仅仅是旧版...

8得票3回答

我刚开始学习机器学习，所以希望您能对这个问题宽容一点。我有一串观测到的字符序列，例如ABABBABBB......（n个字符）。我的目标是通过某种“学习”机制来预测下一个字符。但限制是：训练数据即观测到的字符数量不多。换言之，我只有一段长度为6000的序列，用于学习其中的潜在规律。我对...