我正在处理一些美国政府数据,其中包含大量城市和邮政编码。
经过一些处理后,数据的格式如下所示。
dat1 = data.frame(keyword=c("Bremen", "Brent", "Centreville, AL", "Chelsea, AL", "Bailytown, Alabama", "Calera, Alabama",
"54023", "54024"), tag=c(rep("AlabamCity",2), rep("AlabamaCityST",2), rep("AlabamaCityState",2), rep("AlabamaZipCode",2)))
dat1
然而,有一些关键词无法正确工作。因此,在下面的示例中,有两个“邮政编码”,分别标记为“AlabamaCity”和“AlabamaCityState”。由于某种原因,政府的原始数据集有几个邮政编码未能与其他邮政编码正确分组。
dat2 = data.frame(keyword=c("Bremen", "Brent", "50143", "Chelsea, AL", "Bailytown, Alabama", "52348",
"54023", "54024"), tag=c(rep("AlabamCity",2), rep("AlabamaCityST",2), rep("AlabamaCityState",2), rep("AlabamaZipCode",2)))
dat2
我想知道如何遍历整个关键字列表,并删除所有具有数值的行(实际上它们被保存为字符值),这些行没有“AlabamaZipCode”标记。因此,先前的数据应该看起来像这样。
dat3 = data.frame(keyword=c("Bremen", "Brent", "Chelsea, AL", "Bailytown, Alabama", "54023", "54024"),
tag=c(rep("AlabamCity",2), rep("AlabamaCityST",1), rep("AlabamaCityState",1), rep("AlabamaZipCode",2)))
dat3
挑战似乎是我想保留某些数字值,而删除其他数字值。 有人能帮忙吗?