我有一些数据的形式如下:
Person.ID Household.ID Composition
1 4593 1A_0C
2 4992 2A_1C
3 9843 1A_1C
4 8385 2A_2C
5 9823 8A_1C
6 3458 1C_9C
7 7485 2C_0C
: : :
我们可以将组成变量看作成人/儿童的计数,例如2A_1C表示两个成人和两个儿童。
我想做的是减少可能的组成水平。对于第5个人,我们有8A_1C的组成,我正在寻找一种方法将其减少到4+A_0C。因此,例如,对于任何具有大于4A的组成值,我们将使用4+。
Person.ID Household.ID Composition
5 9823 4+A_1C
6 3458 1A_4+C
: : :
我不确定如何在R中做到这一点,我考虑使用dyplyr中的filter()或select(). 否则,我需要使用某种正则表达式。
感激任何帮助。谢谢!