与这个案例类似,我想使用stringr包的str_count函数计算出在一组句子中多个单词和数字的出现次数。
但我发现不仅整数会被计算,部分数字也会被计算。例如:
df <- c("honda civic 1988 with new lights","toyota auris 4x4 140000 km","nissan skyline 2.0 159000 km")
keywords <- c("honda","civic","toyota","auris","nissan","skyline","1988","1400","159")
library(stringr)
number_of_keywords_df <- str_count(df, paste(keywords, collapse='|'))
在这里我收到了一个长度为3、3、3的number_of_keywords_df向量,而显然应该是3、2、2。str_count函数似乎会在数字“140000”和“159000”中计数部分字符串“1400”和“159”。有没有什么方法可以防止这种情况发生?