16得票3回答
用Python实现高效的1-5克提取方法

我有一个包含3,000,000行的巨大文件,每行都有20-40个单词。我必须从这个语料库中提取1到5个ngram。我的输入文件是已分词的纯文本,例如:This is a foo bar sentence . There is a comma , in this sentence . Such ...

16得票3回答
在Python中快速/优化N-gram实现

哪个Python中的ngram实现最快?我尝试过评估nltk和scott的zip(http://locallyoptimal.com/blog/2013/01/20/elegant-n-gram-generation-in-python/):from nltk.util import ngra...

16得票2回答
在R中进行非常快速的词语ngram向量化

编辑:新的text2vec软件包非常出色,很好地解决了这个问题(以及许多其他问题)。 text2vec在CRAN上的页面 text2vec在github上的页面 演示ngram标记化的vignette 我有一个相当大的R文本数据集,我已将其导入为字符向量:#Takes about 15 s...

16得票4回答
Spacy中是否有二元组或三元组功能?

下面的代码将句子分解为单独的标记,输出如下: "cloud" "computing" "is" "benefiting" " major" "manufacturing" "companies" import en_core_web_sm nlp = en_core_web_sm...

14得票1回答
NLTK中的Ngram模型和困惑度

为了让我的问题有上下文,我想要训练和测试/比较几个(神经)语言模型。为了专注于模型而不是数据准备,我选择使用nltk中的Brown语料库,并使用nltk提供的Ngrams模型作为基准进行比较。 因此,我的第一个问题实际上是关于nltk的Ngram模型行为的可疑之处。由于代码相当简短,我在这里...

14得票7回答
我需要什么算法来查找n-gram?

如何找到N-grams? 假设我的输入数据是一个单词数组,我想要找到的N-grams的大小是多少,则应使用什么算法? 我需要代码,并希望使用R语言。数据存储在数据库中,因此也可以是plgpsql函数。 Java是我比较熟悉的语言,所以我可以将其“转换”为另一种语言。 我不是懒,只是希望得...

14得票2回答
使用5万个单词创建ARPA语言模型文件

我想创建一个包含近50000个单词的ARPA语言模型文件。我无法通过将我的文本文件传递给CMU Language Tool来生成语言模型。是否有其他链接可以获取这么多单词的语言模型?

13得票4回答
Java Lucene NGramTokenizer

我正在尝试将字符串分词成ngrams。奇怪的是,在NGramTokenizer的文档中,我没有看到一个返回被分词的单个ngram的方法。实际上,在NGramTokenizer类中,我只看到两种返回字符串对象的方法。 这里是我的代码:Reader reader = new StringRead...

13得票1回答
有没有更高效的方法来查找最常见的n-grams?

我正在尝试从一个大语料库中找出前 k 个最常见的 n-grams。我看到很多地方都建议使用朴素的方法 - 简单地扫描整个语料库并保留所有 n-grams 的计数字典。有没有更好的方法来做这件事?

12得票3回答
如何使用spacy/nltk生成二元/三元组

输入文本始终是菜名列表,其中包含1~3个形容词和一个名词 输入thai iced tea spicy fried chicken sweet chili pork thai chicken curry 输出:thai tea, iced tea spicy chicken, fried ch...