8得票2回答
NLTK - TypeError: tagged_words()收到了一个意外的关键字参数'simplify_tags'。

我刚刚在跟随NLTK书中的第5章,发现tagged_words()函数中的'simplify_tags'参数并不是很预期。我使用的是Python 3.4版本、PyCharm IDE以及标准的NLTK包。 In[4]: nltk.corpus.brown.tagged_words() Out[...

8得票4回答
在R中从多个HTML文件创建语料库

我想创建一个语料库用于收集下载的HTML文件,并在未来的文本挖掘中使用R进行读取。 基本上,这是我想要做的: 从多个HTML文件中创建一个语料库。 我尝试使用DirSource: library(tm) a<- DirSource("C:/test") b<-Corpu...

7得票1回答
理解SemCor语料库结构 H

我正在学习自然语言处理(NLP),目前正在研究词义消歧(Word Sense Disambiguation)。我计划使用semcor语料库作为训练数据,但我不太理解其xml结构。我尝试过搜索,但没有找到任何描述semcor内容结构的资源。 <s snum="1"> <wf ...

7得票1回答
在Python NLTK中使用自己的语料库进行分类别分类

我是一个 NTLK/Python 的初学者,已经使用 CategorizedPlaintextCorpusReader 成功加载了自己的语料库,但是如何实际训练和使用数据进行文本分类呢? >>> from nltk.corpus.reader import Categori...

7得票2回答
使用NLTK从字符串中解析位置、人名、日期

我有很多像下面这样的字符串: ISLAMABAD:首席法官Iftikhar Muhammad Chaudhry表示,国家问责 KARACHI, 7月24日--警方声称已分别在不同地点逮捕了几名嫌疑人 斯里兰卡,ALUM KULAM--当灰腹的云开始遮挡灼热的太阳时 我正在使用NLTK来...

7得票2回答
我可以使用哪些垃圾邮件语料库进行NLTK分析?

我的问题与这个问题相关,但我决定开一个新的问题线程。希望没问题。 我正在使用Python中的NLTK构建垃圾邮件过滤器,但我刚刚开始。我想知道可以使用哪个垃圾邮件语料库以及如何导入它?我没有找到任何在NLTK中“内置”的垃圾邮件语料库(这里)。 谢谢您提前的帮助。

7得票3回答
寻找用于测试全文搜索的数据集

我正在寻找一些文本语料库,以便进行一些全文数据搜索的试验。我希望能够下载到这些语料库,或者使用一个可以生成这些语料库的系统。最好是一些比较随机的内容,例如100万篇维基百科文章,格式易于插入到两列数据库(ID、文本)中。 您有任何想法或建议吗?