我有一个相对较大的数据集(> 500k行),由两个分组变量定义的421个组。示例数据如下:
...等等。
我想要的是一些分层样本,根据(group_one x group_two)的成员身份有一定数量(目前为k = 12,但该数字可能会变化)。每个组的成员资格应由一个新列sample_membership指示,其值为1到k(再次为12)。我应该能够按sample_membership子集,并获得多达12个不同的样本,每个样本在考虑group_one和group_two时都是代表性的。
因此,最终数据集可能如下所示:
想法?非常感谢!
df<-data.frame(group_one=rep((0:9),26), group_two=rep((letters),10))
head(df)
group_one group_two
1 0 a
2 1 b
3 2 c
4 3 d
5 4 e
6 5 f
...等等。
我想要的是一些分层样本,根据(group_one x group_two)的成员身份有一定数量(目前为k = 12,但该数字可能会变化)。每个组的成员资格应由一个新列sample_membership指示,其值为1到k(再次为12)。我应该能够按sample_membership子集,并获得多达12个不同的样本,每个样本在考虑group_one和group_two时都是代表性的。
因此,最终数据集可能如下所示:
group_one group_two sample_membership
1 0 a 1
2 0 a 12
3 0 a 5
4 1 a 5
5 1 a 7
6 1 a 9
想法?非常感谢!