得票数最多 'nltk' 问题

关联标签

351得票7回答

"熵和信息增益"是什么？

我正在阅读这本书(NLTK)，但有些晦涩难懂。在该书中，Entropy被定义为: 熵是每个标签的概率乘以该标签对数概率之和我如何在文本挖掘领域应用熵(entropy)和最大熵(maximum entropy)？能否给出一个简单易懂的示例（可视化）？

mathtextcomputer-sciencenltktext-mining

204得票14回答

Lemmatization和Stemming有什么区别？

我该何时使用它们？此外...NLTK词形还原是否依赖于词性？如果依赖于词性，那么准确度不是更高吗？

nlpnltklemmatization

192得票9回答

NLTK 的所有可能的 POS 标签是什么？

我该如何找到所有可能被 Natural Language Toolkit (NLTK) 使用的 POS 标签列表？

pythonnltk

188得票18回答

无法加载nltk.data.load中的english.pickle文件

尝试加载“punkt”分词器时出现问题...import nltk.data tokenizer = nltk.data.load('nltk:tokenizers/punkt/english.pickle') ...抛出了LookupError异常：> LookupError: &g...

pythonjenkinsnltk

188得票12回答

如何使用Python检查一个单词是否为英语单词？

我希望在Python程序中检查一个单词是否在英语词典中。我相信nltk wordnet接口可能是解决这个简单任务的方法，但我不知道如何使用它。def is_english_word(word): pass # how to I implement is_english_word? ...

pythonnltkwordnet

177得票17回答

Python中的N-grams，四克、五克、六克？

我正在寻找一种将文本拆分为N元组的方法。通常我会这样做：import nltk from nltk import bigrams string = "I really like python, it's pretty awesome." string_bigrams = bigrams(st...

pythonstringnltkn-gram

164得票13回答

如何使用NLTK分词器去除标点符号？

我刚开始使用NLTK，不太明白如何从文本中获取单词列表。如果我使用 nltk.word_tokenize()，会得到一个包含单词和标点符号的列表。但我只需要单词，如何去掉标点符号？此外，word_tokenize 在处理多个句子时存在问题：句号被添加到最后一个单词。

pythonnlptokenizenltk

142得票13回答

如何使用nltk或python去除停用词

我有一个数据集，想要去除停用词。我使用了NLTK获得了一个停用词列表：from nltk.corpus import stopwords stopwords.words('english') 我该如何将数据与停用词列表进行比较，从而将停用词从数据中删除？

pythonnltkstop-words

134得票10回答

如何检查已安装的nltk和scikit-learn版本？

在shell脚本中，我正在检查这些软件包是否已安装，如果未安装，则进行安装。因此，在shell脚本中：import nltk echo nltk.__version__ 但是它会在import行处停止shell脚本。在Linux终端中尝试以这种方式查看：which nltk 虽然安装了软件...

pythonlinuxshellscikit-learnnltk

132得票29回答

pip安装几乎任何库的问题

我使用pip安装几乎所有东西都很困难。我是编程新手，所以我认为可能是我做错了什么，选择使用easy_install来完成我需要的大部分工作，这通常是有效的。然而，现在我正在尝试下载nltk库，但两种方式都不能完成任务。我尝试输入：sudo pip install nltk 但是收到以下回复：/...

pythonpipnltkeasy-install