12得票4回答
在R中查找ngram并比较不同语料库中的ngram

我正在学习如何使用R中的tm包,因此请耐心等待,对于这篇大段文字,我很抱歉。我已经创建了一个相当大的社会主义/共产主义宣传语料库,并希望提取新的政治术语(多个词,例如“斗争-批判-改造运动”)。 这是一个两步问题,一个涉及我的代码到目前为止,另一个涉及我接下来该怎么做。 第一步:为了实现这...

12得票1回答
使用Neo4J模拟马尔可夫链

一个马尔科夫链由一组状态组成,这些状态可以以一定的概率转移到其他状态。 在Neo4J中,可以通过为每个状态创建一个节点,为每个转换创建一个关系,然后使用适当的概率注释转换关系来轻松表示马尔科夫链。 但是,您能否使用Neo4J模拟马尔科夫链呢?例如,可以强制Neo4J从某个特定状态开始,然后...

12得票1回答
现在已经移除的模块'nltk.model.NGramModel'是否有替代品?

我已经连续两天在寻找替代方案,但没有找到任何相关的内容。 基本上,我试图获得一个从语料库中选择的原始句子中通过替换某些单词而合成的句子的概率分数。 我尝试了Collocations,但是得到的得分并不是很有帮助。所以我尝试使用语言模型的概念,只发现似乎有用的“model”模块已经因为一些错误...

11得票2回答
NLTK包用于估计(一元)困惑度。

我正在尝试计算我拥有的数据的困惑度。我使用的代码是: import sys sys.path.append("/usr/local/anaconda/lib/python2.7/site-packages/nltk") from nltk.corpus import brown from ...

11得票3回答
从文本中提取关键短语(1-4个单词的组合)

什么是从文本块中提取关键词短语的最佳方法?我正在编写一个关键字提取工具:类似于这样的。我找到了一些用于提取n-gram的Python和Perl库,但是我正在Node中编写代码,所以需要JavaScript解决方案。如果没有现成的JavaScript库,有人能否解释一下如何做到这一点,以便我可以...

11得票4回答
Drupal的搜索模块能否搜索子字符串?(部分搜索)

Drupal的核心搜索模块只能按关键词搜索,例如“三明治”。我能否让它搜索子字符串,例如“三明治”,并返回我的三明治结果? 也许有一个插件可以做到这一点?

10得票2回答
使用Keras Tokenizer生成n-gram模型

在Keras中是否可以使用n-grams?例如,X_train数据框中包含“sentences”列的句子。我使用以下方式从Keras中的tokenizer: tokenizer = Tokenizer(lower=True, split=' ') tokenizer.fit_on_texts...

10得票1回答
预测短语而不仅仅是下一个单词

对于我们构建的应用程序,我们使用了一个简单的统计模型来进行单词预测(类似于Google自动完成),以引导搜索。 它使用从大量相关文本文档中收集的ngram序列。通过考虑前N-1个单词,它建议按概率降序显示五个最可能的“下一个单词”,使用Katz后退模型。 我们希望将此扩展为预测短语(多个单...

10得票2回答
Python接口与ARPA文件

我正在寻找一个Python接口来加载ARPA文件(回退语言模型),并使用它们评估一些文本,例如获取其对数概率、困惑度等。 我不需要在Python中生成ARPA文件,只需要用它来查询。 是否有推荐的软件包? 我已经看到了kenlm和swig-srilm,但第一个在Windows上设置非常困难...

10得票1回答
N元语法与朴素贝叶斯分类器

我是Python的新手,需要帮助! 我正在使用Python NLTK文本分类练习。 这是我正在练习的代码示例: http://www.laurentluce.com/posts/twitter-sentiment-analysis-using-python-and-nltk/ 我尝试过这个。...