得票数最多 'text-mining' 问题 - 第5页

关联标签

14得票5回答

如何在R中清洗Twitter数据？

我使用twitteR软件包从Twitter中提取了推文，并将它们保存到文本文件中。我对语料库进行了以下处理xx<-tm_map(xx,removeNumbers, lazy=TRUE, 'mc.cores=1') xx<-tm_map(xx,stripWhitespace, l...

rtwittertext-miningdata-cleaning

13得票4回答

wget的替代方案出现“ERROR 403：Forbidden”的情况

我正在尝试使用wget从多个Pubmed文章中获取文本，但似乎NCBI网站不允许这样做。有其他的替代方法吗？Bernardos-MacBook-Pro:pangenome_papers_pubmed_result bernardo$ wget -i ./url.txt --2016-05-04...

web-scrapingwgettext-mining

13得票1回答

如何将对话数据拆分成（上下文，回复）的一对

我正在使用Gensim Doc2Vec模型，尝试对客户支持对话的部分进行聚类。我的目标是为支持团队提供自动回复建议。图1：显示了一个示例对话，在下一个对话线中回答用户问题，使得数据提取变得容易：在对话期间，“hello”和“我们的办公室位于纽约”应该被建议图2：描述了一个问题和答案不同步的对...

pythontext-miningdoc2vecgensym

13得票3回答

潜在语义分析概念

我已经阅读过关于在文本语料库中使用奇异值分解（Singular Value Decomposition，SVD）进行潜在语义分析（Latent Semantic Analysis，LSA）的方法。我知道如何进行此操作，并且理解SVD的数学概念。但是我不明白为什么将其应用于文本语料库时会起作用...

algorithmnlpdata-miningtext-mininglatent-semantic-indexing

12得票10回答

爬取互联网

我想要爬取一些特定的内容，例如音乐会、电影、艺术画廊开幕等等。任何值得花时间前往的活动。我应该如何实现一个爬虫呢？我听说过 Grub（grub.org -> Wikia）和 Heritix（http://crawler.archive.org/）。还有其他的选择吗？大家有什么意...

nlpweb-crawlerinformation-retrievaltext-mining

12得票3回答

在R中的TermDocumentMatrix出现错误

我一直在尝试使用R中的{tm}包创建一个TermDocumentMatrix，并通过许多在线示例进行学习。创建和清理语料库相对简单，但是每次尝试创建矩阵时我都会遇到错误。错误信息如下： Error in UseMethod("meta", x) : no applicable...

rtext-miningtmcorpusterm-document-matrix

12得票4回答

在R中查找ngram并比较不同语料库中的ngram

我正在学习如何使用R中的tm包，因此请耐心等待，对于这篇大段文字，我很抱歉。我已经创建了一个相当大的社会主义/共产主义宣传语料库，并希望提取新的政治术语（多个词，例如“斗争-批判-改造运动”）。这是一个两步问题，一个涉及我的代码到目前为止，另一个涉及我接下来该怎么做。第一步：为了实现这...

rtext-miningn-gramtm

12得票2回答

如何使用新（测试）数据重现相同的DocumentTermMatrix

假设我有基于文本的训练数据和测试数据。更具体地说，我有两个数据集 - 训练和测试 - 两个数据集都有一个包含文本并与手头的工作相关的列。我使用R中的tm软件包处理训练数据集中的文本列。在去除空格、标点符号和停用词后，我对语料库进行了词干提取，并最终创建了一个包含每个文档中单词频率/计数的1...

rmachine-learningnlptext-miningtm

12得票2回答

如何使用tf-idf选择停用词？（非英语语料库）

我已经成功地评估了给定语料库的tf-idf函数。如何找到每个文档的停用词和最佳单词？我理解，对于给定单词和文档来说，tf-idf值较低意味着它不是选择该文档的好单词。

information-retrievaltext-miningstop-wordstf-idf

12得票1回答

"RTextTools" 的 create_matrix 函数出现错误

我正在使用RTextTools软件包构建文本分类模型。当我准备预测数据集并尝试将其转换为矩阵时，出现如下错误： Error in if (attr(weighting, "Acronym") == "tf-idf") weight <- 1e-09 : argument is of...

rclassificationtext-mining