得票数最多 'corpus' 问题 - 第4页

关联标签

8得票2回答

我刚刚在跟随NLTK书中的第5章，发现tagged_words()函数中的'simplify_tags'参数并不是很预期。我使用的是Python 3.4版本、PyCharm IDE以及标准的NLTK包。 In[4]: nltk.corpus.brown.tagged_words() Out[...

8得票4回答

我想创建一个语料库用于收集下载的HTML文件，并在未来的文本挖掘中使用R进行读取。基本上，这是我想要做的：从多个HTML文件中创建一个语料库。我尝试使用DirSource: library(tm) a<- DirSource("C:/test") b<-Corpu...

7得票1回答

我正在学习自然语言处理(NLP)，目前正在研究词义消歧(Word Sense Disambiguation)。我计划使用semcor语料库作为训练数据，但我不太理解其xml结构。我尝试过搜索，但没有找到任何描述semcor内容结构的资源。 <s snum="1"> <wf ...

7得票1回答

我是一个 NTLK/Python 的初学者，已经使用 CategorizedPlaintextCorpusReader 成功加载了自己的语料库，但是如何实际训练和使用数据进行文本分类呢？ >>> from nltk.corpus.reader import Categori...

7得票2回答

我有很多像下面这样的字符串： ISLAMABAD:首席法官Iftikhar Muhammad Chaudhry表示，国家问责 KARACHI, 7月24日--警方声称已分别在不同地点逮捕了几名嫌疑人斯里兰卡，ALUM KULAM--当灰腹的云开始遮挡灼热的太阳时我正在使用NLTK来...

7得票2回答

我的问题与这个问题相关，但我决定开一个新的问题线程。希望没问题。我正在使用Python中的NLTK构建垃圾邮件过滤器，但我刚刚开始。我想知道可以使用哪个垃圾邮件语料库以及如何导入它？我没有找到任何在NLTK中“内置”的垃圾邮件语料库(这里)。谢谢您提前的帮助。

7得票3回答

我正在寻找一些文本语料库，以便进行一些全文数据搜索的试验。我希望能够下载到这些语料库，或者使用一个可以生成这些语料库的系统。最好是一些比较随机的内容，例如100万篇维基百科文章，格式易于插入到两列数据库（ID、文本）中。您有任何想法或建议吗？