得票数最多 'corpus' 问题

关联标签

94得票4回答

当通过Python连接Mysql时，我该如何更改默认的Mysql连接超时时间？

我使用Python连接到了一个mysql数据库 con = _mysql.connect('localhost', 'dell-pc', '', 'test') 我编写的程序需要完整执行大约需要10个小时。实际上，我正在尝试从语料库中读取不同的单词。在读取完成后出现了超时错误。我检查了M...

pythonmysqlcorpus

90得票4回答

使用NLTK创建新的语料库

我觉得通常对于我标题的答案是去阅读文档，但我已经翻遍了NLTK书籍，但没有找到答案。我有点新手，我有一堆.txt文件，我想能够使用NLTK为语料库提供的语料库函数nltk_data。我尝试过PlaintextCorpusReader，但我只能做到这一步：>>>import...

pythonnlpnltkcorpus

57得票4回答

以编程方式安装NLTK语料库/模型，即不使用GUI下载程序？

我的项目使用了NLTK。我如何列出该项目的语料库和模块要求，以便可以自动安装它们？我不想通过nltk.download()界面一个一个地安装包。此外，是否有任何方法可以冻结这个要求列表（像pip freeze一样）？

installationpackagenltkrequirementscorpus

56得票4回答

文档术语矩阵在语料库参数上出错。

我有以下代码： # returns string w/o leading or trailing whitespace trim <- function (x) gsub("^\\s+|\\s+$", "", x) news_corpus <- Corpus(VectorSo...

rtmcorpus

48得票5回答

如何在Python中从语料库创建词云？

从在 R 中从语料库创建单词子集中，答案提供者可以轻松将一个term-document matrix转换为一个单词云。是否有类似的Python库函数，可以将原始单词文本文件或NLTK语料库或Gensim Mmcorpus转换为单词云？结果将看起来像这样：

pythonnltkcorpusgensimword-cloud

25得票3回答

有免费的语料库可以使用吗？

有没有任何地方可以免费或少于100美元下载英语短语的树库？我需要包含大量句法分析句子（> 1000）的训练数据，格式不限。基本上，我所需的只是这些句子中被识别为词性的单词。

nlpdatasettaggingcorpus

21得票4回答

如何从Project Gutenberg的文本中删除页眉/页脚？

我尝试了各种方法来剥离项目古腾堡文本中的许可证，以用作语言学习项目的语料库，但似乎没有找到无监督、可靠的方法。目前我使用的最佳启发式方法是删除前28行和最后398行，这个方法对很多文本都奏效了。如果您有自动剥离文本的建议（每个文本非常相似，但在每种情况下存在轻微差异和几种不同的模板），以及如何...

nlptext-processingheuristicscorpusstripping

17得票6回答

R tm包 vcorpus: 将语料库转换为数据框时出错

我正在使用tm包来清理一些数据，使用以下代码：mycorpus <- Corpus(VectorSource(x)) mycorpus <- tm_map(mycorpus, removePunctuation) 我之后想将语料库转换回数据框以便导出文本文件，其中包含原始数据框的格...

rtmcorpus

17得票6回答

在R tm中添加自定义停用词

我在R中使用tm软件包拥有一个语料库。我正在使用removeWords函数来去除停用词。我在R中使用tm包创建了一个语料库，现在我想使用removeWords函数去除停用词。tm_map(abs, removeWords, stopwords("english")) 有没有办法将我自己...

rtext-miningstop-wordscorpustm

15得票1回答

使用R中的tm包制作多个语料库中前N个高频词的数据框。

我用R语言的tm包创建了几个TermDocumentMatrix。我想找到每组文档中出现频率最高的10个词，以便最终得到如下输出表格：corpus1 corpus2 "beach" "city" "sand" "sidewalk" ... ... [10th m...

rtext-miningcorpustm