我有以下代码用于创建干净的文本进行Twitter情感分析。我想添加另一行来删除某些不想包含在此分析中的单词,例如“crap”,“sick”等。请问有人能告诉我如何实现吗?
tweets <- searchTwitter("iPhone", n=1500, lang="en")
txt <- sapply(tweets, function(x) x$getText())
txt <- gsub("(RT|via)((?:\\b\\W*@\\w+)+)", "", txt)
txt <- gsub("@\\w+", "", txt)
txt <- gsub("[[:punct:]]", "", txt)
txt <- gsub("[[:digit:]]", "", txt)
txt <- gsub("http\\w+", "", txt)
txt <- gsub("[ \t]{2,}", "", txt)
txt <- gsub("^\\s+|\\s+$", "", txt)
gsub
进行向量化处理。查看这个关于“使用 gsub 替换多个参数”的回答。这样还可以简化你的代码。 - undefined