我有一个包含20多列和2000多行的大数据集。我想知道不同变量共同出现的次数。此外,将其制作成热图(共现热图或相关性热图)也是很好的。但是,我不确定是否可以使用虚拟/二进制变量完成这项任务。有什么建议吗?
我需要转换这个示例数据集(x
)。
A B C D E F
1 0 1 1 1 1 0
2 0 1 1 0 0 1
3 1 0 0 0 1 0
4 0 0 1 1 1 1
5 0 0 1 1 0 0
转换成类似以下内容:
A B C D E F
A 0 0 0 0 1 0
B 0 0 2 1 1 1
C 0 2 0 3 2 2
D 0 1 3 0 2 1
E 1 1 2 2 0 1
F 0 1 2 2 1 0