我知道这个问题已经在这里和这里被问过,但当我尝试时出现了一个小问题:
我将正则表达式更改为
然后我尝试了gsub的方式:
x<- str_extract("Hello peopllz! My new home is #crazy gr8! #wow", "#\S+")
Error: '\S' is an unrecognized escape in character string starting "#\S"
我将正则表达式更改为
"#(.+) ?"
,"#\\s"
,但它们并没有提取出标签。然后我尝试了gsub的方式:
x<- gsub("[^#(.+) ?]","","Hello! #London is gr8. #Wow")
它给出了:" # . #"
有什么想法,我做错了什么吗?我希望我的输出是推文中所有哈希标签的向量/列表(不包括#符号!)
编辑:我不想分词推文,因为: 1. 我不会对程序的其余部分进行分词, 2. 如果我要扩展它以处理大量推文,这将成为一个非常昂贵的步骤。