假设我有一个包含两个重叠组的直方图。这是ggplot2的一个可能命令和假想输出图形。
ggplot2(data, aes(x=Variable1, fill=BinaryVariable)) + geom_histogram(position="identity")
我有每个事件的频率或计数。 我想做的是在每个区间内获取两个事件之间的差异。 这可行吗?如何实现?
例如,如果我们将 RED 减去 BLUE:
- x=2 的值约为 -10
- x=4 的值约为 40-200=-160
- x=6 的值约为 190-25=155
- x=8 的值约为 10
我更喜欢使用 ggplot2,但其他方法也可以。 我的数据框设置为类似于这个玩具示例(实际维度为 25000 行 x 30 列)编辑:这里有一个可用的示例数据 GIST 示例
ID Variable1 BinaryVariable
1 50 T
2 55 T
3 51 N
.. .. ..
1000 1001 T
1001 1944 T
1002 1042 N
从我的例子可以看出,我对绘制直方图来单独表示每个二元变量(T或N)的Variable1(一个连续变量)很感兴趣。但是我真正想要的是它们频率之间的差异。