351得票7回答
"熵和信息增益"是什么?

我正在阅读这本书(NLTK),但有些晦涩难懂。在该书中,Entropy被定义为: 熵是每个标签的概率乘以该标签对数概率之和 我如何在文本挖掘领域应用熵(entropy)和最大熵(maximum entropy)?能否给出一个简单易懂的示例(可视化)?

204得票14回答
Lemmatization和Stemming有什么区别?

我该何时使用它们? 此外...NLTK词形还原是否依赖于词性?如果依赖于词性,那么准确度不是更高吗?

192得票9回答
NLTK 的所有可能的 POS 标签是什么?

我该如何找到所有可能被 Natural Language Toolkit (NLTK) 使用的 POS 标签列表?

188得票18回答
无法加载nltk.data.load中的english.pickle文件

尝试加载“punkt”分词器时出现问题...import nltk.data tokenizer = nltk.data.load('nltk:tokenizers/punkt/english.pickle') ...抛出了LookupError异常:> LookupError: &g...

188得票12回答
如何使用Python检查一个单词是否为英语单词?

我希望在Python程序中检查一个单词是否在英语词典中。 我相信nltk wordnet接口可能是解决这个简单任务的方法,但我不知道如何使用它。def is_english_word(word): pass # how to I implement is_english_word? ...

177得票17回答
Python中的N-grams,四克、五克、六克?

我正在寻找一种将文本拆分为N元组的方法。 通常我会这样做:import nltk from nltk import bigrams string = "I really like python, it's pretty awesome." string_bigrams = bigrams(st...

164得票13回答
如何使用NLTK分词器去除标点符号?

我刚开始使用NLTK,不太明白如何从文本中获取单词列表。如果我使用 nltk.word_tokenize(),会得到一个包含单词和标点符号的列表。但我只需要单词,如何去掉标点符号?此外,word_tokenize 在处理多个句子时存在问题:句号被添加到最后一个单词。

142得票13回答
如何使用nltk或python去除停用词

我有一个数据集,想要去除停用词。 我使用了NLTK获得了一个停用词列表:from nltk.corpus import stopwords stopwords.words('english') 我该如何将数据与停用词列表进行比较,从而将停用词从数据中删除?

134得票10回答
如何检查已安装的nltk和scikit-learn版本?

在shell脚本中,我正在检查这些软件包是否已安装,如果未安装,则进行安装。因此,在shell脚本中:import nltk echo nltk.__version__ 但是它会在import行处停止shell脚本。 在Linux终端中尝试以这种方式查看:which nltk 虽然安装了软件...

132得票29回答
pip安装几乎任何库的问题

我使用pip安装几乎所有东西都很困难。我是编程新手,所以我认为可能是我做错了什么,选择使用easy_install来完成我需要的大部分工作,这通常是有效的。然而,现在我正在尝试下载nltk库,但两种方式都不能完成任务。我尝试输入:sudo pip install nltk 但是收到以下回复:/...