I have a dataframe like this
> myDataFrame
company
1 Investment LLC
2 Hyperloop LLC
3 Invezzstment LLC
4 Investment_LLC
5 Haiperloop LLC
6 Inwestment LLC
我需要匹配所有这些模糊字符串,因此最终结果应该像这样:
> myDataFrame
company
1 Investment LLC
2 Hyperloop LLC
3 Investment LLC
4 Investment LLC
5 Hyperloop LLC
6 Investment LLC
实际上,我需要解决一个针对分类变量的部分匹配和替换任务。在base R和packages中有很多强大的函数来解决字符串匹配问题,但我却无法找到单一的解决方案来处理这种匹配和替换。
我不关心哪个匹配项将替换其他匹配项,例如"Investment LLC"或"Invezzstment LLC"都可以。只需要它们是一致的即可。
是否有任何单一的一体化函数或循环来实现这一点?
sapply
和部分匹配函数(我想是agrep
)。 "Invezzstment LLC"完全没问题。事实上,Invezzstment LLC和Investment LLC是同一件事;我需要R来获取任何一个并替换所有其他出现的内容,以便我有一个漂亮的分类变量用于此类别。当您拥有超过50000条记录和1200个唯一值时,找出任何拼写错误的变量都是一项繁琐的工作。 - user16