我有一个R数据框(df),看起来像这样:blogger; word; n; total joe; dorothy; 17; 718 paul; sheriff; 10; 354 joe; gray; 9; 718 joe; toto; 9; 718 mick; robin; 9; 607 pa...
这可能是一个愚蠢的问题,但我已经谷歌了很久,但找不到解决方案。我认为这是因为我不知道用什么词语来搜索我的问题。 我有一个数据框,在R中将其转换为整洁文本格式以去除停止词。现在我想要将该数据框“还原”回其原始格式。 什么是unnest_tokens的相反/逆命令? 编辑:这是我正在处理的数...
我在R中使用tidytext包进行n-gram分析。 由于我正在分析推文,我希望保留@和#以捕获提及、转发和标签。然而,unnest_tokens函数会自动删除所有标点符号并将文本转换为小写。 我发现unnest_tokens有一个选项可以使用正则表达式来清理文本,即token='rege...