这是我数据框df中的文本,它有一个名为'problem_note_text'的文本列
问题:纸币分配器故障/执行检查/分配器故障/要求商店拿出纸币分配器并重新安装/仍然显示错误消息,称前门未关闭/因此需要联系客户体验人员(CE)Olivia taber 01159063390 / 7am-11pm
df$problem_note_text <- tolower(df$problem_note_text)
df$problem_note_text <- tm::removeNumbers(df$problem_note_text)
df$problem_note_text<- str_replace_all(df$problem_note_text, " ", "") # replace double spaces with single space
df$problem_note_text = str_replace_all(df$problem_note_text, pattern = "[[:punct:]]", " ")
df$problem_note_text<- tm::removeWords(x = df$problem_note_text, stopwords(kind = 'english'))
Words = all_words(df$problem_note_text, begins.with=NULL)
现在有一个包含单词列表的数据框,但其中存在像“Failureperformed”这样需要拆分成两个有意义单词的单词,如“Failure”和“performed”。我该怎么做?此外,单词数据框还包含像“im”、“h”这样没有意义的单词,需要将其删除。我不知道如何实现这一点。请保留HTML标记。
nowhere
这样的单词,我会将其翻译为“无处可去”或“没有地方”,而不是将其分解为 “no” 和 “where” 或“now”和“here”。 - nrussellsensor-advised
)。如果您可以分享一些导致问题的数据(简单搜索应该能够找到导致问题的初始单词),我们可以更好地指导您。以下 qdap 文档可以帮助调试和清理文本以隔离问题:http://cran.r-project.org/web/packages/qdap/vignettes/cleaning_and_debugging.pdf - Tyler Rinkerquanteda
的dev分支:devtools :: install_github(“kbenoit / quantedaData”)
,然后如果您使用tokenize(df $ problem_note_text,removePunct = TRUE)
,那么您应该解析“sensor-advised”或这两个单词由任何非空格/非单词字符(除了“_”)分隔。 - Ken Benoit