14得票5回答
如何在R中清洗Twitter数据?

我使用twitteR软件包从Twitter中提取了推文,并将它们保存到文本文件中。 我对语料库进行了以下处理xx<-tm_map(xx,removeNumbers, lazy=TRUE, 'mc.cores=1') xx<-tm_map(xx,stripWhitespace, l...

13得票4回答
wget的替代方案出现“ERROR 403:Forbidden”的情况

我正在尝试使用wget从多个Pubmed文章中获取文本,但似乎NCBI网站不允许这样做。有其他的替代方法吗?Bernardos-MacBook-Pro:pangenome_papers_pubmed_result bernardo$ wget -i ./url.txt --2016-05-04...

13得票1回答
如何将对话数据拆分成(上下文,回复)的一对

我正在使用Gensim Doc2Vec模型,尝试对客户支持对话的部分进行聚类。我的目标是为支持团队提供自动回复建议。图1:显示了一个示例对话,在下一个对话线中回答用户问题,使得数据提取变得容易: 在对话期间,“hello”和“我们的办公室位于纽约”应该被建议图2:描述了一个问题和答案不同步的对...

13得票3回答
潜在语义分析概念

我已经阅读过关于在文本语料库中使用奇异值分解(Singular Value Decomposition,SVD)进行潜在语义分析(Latent Semantic Analysis,LSA)的方法。我知道如何进行此操作,并且理解SVD的数学概念。 但是我不明白为什么将其应用于文本语料库时会起作用...

12得票10回答
爬取互联网

我想要爬取一些特定的内容,例如音乐会、电影、艺术画廊开幕等等。任何值得花时间前往的活动。 我应该如何实现一个爬虫呢? 我听说过 Grub(grub.org -> Wikia)和 Heritix(http://crawler.archive.org/)。 还有其他的选择吗? 大家有什么意...

12得票3回答
在R中的TermDocumentMatrix出现错误

我一直在尝试使用R中的{tm}包创建一个TermDocumentMatrix,并通过许多在线示例进行学习。创建和清理语料库相对简单,但是每次尝试创建矩阵时我都会遇到错误。错误信息如下: Error in UseMethod("meta", x) : no applicable...

12得票4回答
在R中查找ngram并比较不同语料库中的ngram

我正在学习如何使用R中的tm包,因此请耐心等待,对于这篇大段文字,我很抱歉。我已经创建了一个相当大的社会主义/共产主义宣传语料库,并希望提取新的政治术语(多个词,例如“斗争-批判-改造运动”)。 这是一个两步问题,一个涉及我的代码到目前为止,另一个涉及我接下来该怎么做。 第一步:为了实现这...

12得票2回答
如何使用新(测试)数据重现相同的DocumentTermMatrix

假设我有基于文本的训练数据和测试数据。更具体地说,我有两个数据集 - 训练和测试 - 两个数据集都有一个包含文本并与手头的工作相关的列。 我使用R中的tm软件包处理训练数据集中的文本列。在去除空格、标点符号和停用词后,我对语料库进行了词干提取,并最终创建了一个包含每个文档中单词频率/计数的1...

12得票2回答
如何使用tf-idf选择停用词?(非英语语料库)

我已经成功地评估了给定语料库的tf-idf函数。如何找到每个文档的停用词和最佳单词?我理解,对于给定单词和文档来说,tf-idf值较低意味着它不是选择该文档的好单词。

12得票1回答
"RTextTools" 的 create_matrix 函数出现错误

我正在使用RTextTools软件包构建文本分类模型。当我准备预测数据集并尝试将其转换为矩阵时,出现如下错误: Error in if (attr(weighting, "Acronym") == "tf-idf") weight <- 1e-09 : argument is of...