得票数最多 'n-gram' 问题 - 第3页

关联标签

16得票3回答

用Python实现高效的1-5克提取方法

我有一个包含3,000,000行的巨大文件，每行都有20-40个单词。我必须从这个语料库中提取1到5个ngram。我的输入文件是已分词的纯文本，例如：This is a foo bar sentence . There is a comma , in this sentence . Such ...

pythonnlpnltkinformation-retrievaln-gram

16得票3回答

在Python中快速/优化N-gram实现

哪个Python中的ngram实现最快？我尝试过评估nltk和scott的zip（http://locallyoptimal.com/blog/2013/01/20/elegant-n-gram-generation-in-python/）：from nltk.util import ngra...

pythonnlpnltkinformation-retrievaln-gram

16得票2回答

在R中进行非常快速的词语ngram向量化

编辑：新的text2vec软件包非常出色，很好地解决了这个问题（以及许多其他问题）。 text2vec在CRAN上的页面 text2vec在github上的页面演示ngram标记化的vignette 我有一个相当大的R文本数据集，我已将其导入为字符向量：#Takes about 15 s...

rvectorizationtext-miningn-gramtext2vec

16得票4回答

Spacy中是否有二元组或三元组功能？

下面的代码将句子分解为单独的标记，输出如下： "cloud" "computing" "is" "benefiting" " major" "manufacturing" "companies" import en_core_web_sm nlp = en_core_web_sm...

python-3.xnlptokenizespacyn-gram

14得票1回答

NLTK中的Ngram模型和困惑度

为了让我的问题有上下文，我想要训练和测试/比较几个（神经）语言模型。为了专注于模型而不是数据准备，我选择使用nltk中的Brown语料库，并使用nltk提供的Ngrams模型作为基准进行比较。因此，我的第一个问题实际上是关于nltk的Ngram模型行为的可疑之处。由于代码相当简短，我在这里...

pythonnltkn-gram

14得票7回答

我需要什么算法来查找n-gram？

如何找到N-grams？假设我的输入数据是一个单词数组，我想要找到的N-grams的大小是多少，则应使用什么算法？我需要代码，并希望使用R语言。数据存储在数据库中，因此也可以是plgpsql函数。 Java是我比较熟悉的语言，所以我可以将其“转换”为另一种语言。我不是懒，只是希望得...

rn-gram

14得票2回答

使用5万个单词创建ARPA语言模型文件

我想创建一个包含近50000个单词的ARPA语言模型文件。我无法通过将我的文本文件传递给CMU Language Tool来生成语言模型。是否有其他链接可以获取这么多单词的语言模型?

speech-recognitioncmusphinxn-gramlanguage-model

13得票4回答

Java Lucene NGramTokenizer

我正在尝试将字符串分词成ngrams。奇怪的是，在NGramTokenizer的文档中，我没有看到一个返回被分词的单个ngram的方法。实际上，在NGramTokenizer类中，我只看到两种返回字符串对象的方法。这里是我的代码：Reader reader = new StringRead...

javalucenetokenizen-gram

13得票1回答

有没有更高效的方法来查找最常见的n-grams？

我正在尝试从一个大语料库中找出前 k 个最常见的 n-grams。我看到很多地方都建议使用朴素的方法 - 简单地扫描整个语料库并保留所有 n-grams 的计数字典。有没有更好的方法来做这件事？

algorithmnlpn-gram

12得票3回答

如何使用spacy/nltk生成二元/三元组

输入文本始终是菜名列表，其中包含1~3个形容词和一个名词输入thai iced tea spicy fried chicken sweet chili pork thai chicken curry 输出：thai tea, iced tea spicy chicken, fried ch...

pythonnlpnltkn-gramspacy