这可能是一个经常被问到的问题,我在这里遇到了麻烦。
从一个XML文件中,我正在尝试搜索所有出现次数、它们的行数以及包含仅字母和数字(即字母数字)的12个字符字符串的总出现次数。
例如:如果我的文件是xmlInput
,我正在尝试搜索并提取所有12个字符的字母数字字符串的出现次数、位置和总计数。
示例输出:
String Total Count Line-Num
CPXY180D2324 2 132,846
CPXY180D2131 1 372
CPCY180D2139 1 133
我知道可以使用regmatches
通过模式获取字符串的所有出现次数。我一直在使用以下方式进行操作:(感谢您提供的帮助)。
ProNum12<-regmatches(xmlInput, regexpr("([A-Z0-9]{12})", xmlInput))
ProNum12
regmatches
可以给我所有符合模式的匹配项,但它不能给出模式出现位置的行号。而grep
可以给出所有出现位置的行号。我曾尝试使用库
Tau
中的textcnt
包,但无法正确运行。也许这不是正确的包?在R中是否有一个包/库可以搜索所有匹配模式的单词,并返回每个出现次数和行号?如果没有这样的包,任何使用上述方法或更好方法的想法吗?
)引用 R 命令则更易于阅读。例如:使用
grep` 代替 Grep。 - Arun