在一个数据集中(N=6000),我想分析15个虚拟变量的组合发生频率。
对于这个例子,我希望看到的是数字1000出现了两次,1001出现了一次,0111也出现了一次。
我唯一能想到的方法是为每个可能的组合计算一个变量...
是否有一种优雅而高效的方法来做到这一点?
我已经阅读了如何总结所有可能的变量组合? 但那是一个稍微不同的问题,聚合记数器超出了我的知识范围(但如果那是我的问题的答案,我会去研究它)。
ID Var1 Var2 Var3 Var15
1 1 0 0 1
2 0 1 1 1
3 1 0 0 0
6000 1 0 0 0
对于这个例子,我希望看到的是数字1000出现了两次,1001出现了一次,0111也出现了一次。
我唯一能想到的方法是为每个可能的组合计算一个变量...
是否有一种优雅而高效的方法来做到这一点?
我已经阅读了如何总结所有可能的变量组合? 但那是一个稍微不同的问题,聚合记数器超出了我的知识范围(但如果那是我的问题的答案,我会去研究它)。
library(tidyverse); df %>% count(Var1, Var2, Var3, Var15) %>% complete(Var1, Var2, Var3, Var15, fill = list(n = 0))
来获取不存在的组合的零值。 - AntoniosK