94得票4回答
当通过Python连接Mysql时,我该如何更改默认的Mysql连接超时时间?

我使用Python连接到了一个mysql数据库 con = _mysql.connect('localhost', 'dell-pc', '', 'test') 我编写的程序需要完整执行大约需要10个小时。实际上,我正在尝试从语料库中读取不同的单词。 在读取完成后出现了超时错误。 我检查了M...

90得票4回答
使用NLTK创建新的语料库

我觉得通常对于我标题的答案是去阅读文档,但我已经翻遍了NLTK书籍,但没有找到答案。我有点新手,我有一堆.txt文件,我想能够使用NLTK为语料库提供的语料库函数nltk_data。 我尝试过PlaintextCorpusReader,但我只能做到这一步:>>>import...

57得票4回答
以编程方式安装NLTK语料库/模型,即不使用GUI下载程序?

我的项目使用了NLTK。我如何列出该项目的语料库和模块要求,以便可以自动安装它们?我不想通过nltk.download()界面一个一个地安装包。 此外,是否有任何方法可以冻结这个要求列表(像pip freeze一样)?

56得票4回答
文档术语矩阵在语料库参数上出错。

我有以下代码: # returns string w/o leading or trailing whitespace trim <- function (x) gsub("^\\s+|\\s+$", "", x) news_corpus <- Corpus(VectorSo...

48得票5回答
如何在Python中从语料库创建词云?

从在 R 中从语料库创建单词子集中,答案提供者可以轻松将一个term-document matrix转换为一个单词云。 是否有类似的Python库函数,可以将原始单词文本文件或NLTK语料库或Gensim Mmcorpus转换为单词云? 结果将看起来像这样:

25得票3回答
有免费的语料库可以使用吗?

有没有任何地方可以免费或少于100美元下载英语短语的树库?我需要包含大量句法分析句子(> 1000)的训练数据,格式不限。基本上,我所需的只是这些句子中被识别为词性的单词。

21得票4回答
如何从Project Gutenberg的文本中删除页眉/页脚?

我尝试了各种方法来剥离项目古腾堡文本中的许可证,以用作语言学习项目的语料库,但似乎没有找到无监督、可靠的方法。目前我使用的最佳启发式方法是删除前28行和最后398行,这个方法对很多文本都奏效了。如果您有自动剥离文本的建议(每个文本非常相似,但在每种情况下存在轻微差异和几种不同的模板),以及如何...

17得票6回答
R tm包 vcorpus: 将语料库转换为数据框时出错

我正在使用tm包来清理一些数据,使用以下代码:mycorpus <- Corpus(VectorSource(x)) mycorpus <- tm_map(mycorpus, removePunctuation) 我之后想将语料库转换回数据框以便导出文本文件,其中包含原始数据框的格...

17得票6回答
在R tm中添加自定义停用词

我在R中使用tm软件包拥有一个语料库。 我正在使用removeWords函数来去除停用词。 我在R中使用tm包创建了一个语料库,现在我想使用removeWords函数去除停用词。tm_map(abs, removeWords, stopwords("english")) 有没有办法将我自己...

15得票1回答
使用R中的tm包制作多个语料库中前N个高频词的数据框。

我用R语言的tm包创建了几个TermDocumentMatrix。 我想找到每组文档中出现频率最高的10个词,以便最终得到如下输出表格:corpus1 corpus2 "beach" "city" "sand" "sidewalk" ... ... [10th m...