我目前正在尝试从总是以相同格式出现的字符串中提取数据(从没有API支持的社交网站上抓取)
字符串示例
53.2k Followers, 11 Following, 1,396 Posts
5m Followers, 83 Following, 1.1m Posts
我目前正在使用以下正则表达式: "[0-9]{1,5}([,.][0-9]{1,4})?",以获取数字部分,并保留逗号和点分隔符。它可以产生如下结果:
53.2, 11, 1,396
5, 83, 1.1
我需要一个正则表达式,可以捕获数字部分后面的字符,即使它是一个空格。例如:
53.2k, 11 , 1,396
5m, 83 , 1.1m
非常感谢任何帮助
复制所需的R代码
library(stringr)
string1 <- ("536.2k Followers, 83 Following, 1,396 Posts")
string2 <- ("5m Followers, 83 Following, 1.1m Posts")
info <- str_extract_all(string1,"[0-9]{1,5}([,.][0-9]{1,4})?")
info2 <- str_extract_all(string2,"[0-9]{1,5}([,.][0-9]{1,4})?")
info
info2