不同分位数:箱线图与小提琴图

11
require(ggplot2)
require(cowplot)
d = iris

ggplot2::ggplot(d, aes(factor(0), Sepal.Length)) + 
    geom_violin(fill="black", alpha=0.2, draw_quantiles = c(0.25, 0.5, 0.75)
                , colour = "red", size = 1.5) +
    stat_boxplot(geom ='errorbar', width = 0.1)+
    geom_boxplot(width = 0.2)+
    facet_grid(. ~ Species, scales = "free_x") +
    xlab("") + 
    ylab (expression(paste("Value"))) +
    coord_cartesian(ylim = c(3.5,9.5)) + 
    scale_y_continuous(breaks = seq(4, 9, 1)) + 
    theme(axis.text.x=element_blank(),
          axis.text.y = element_text(size = rel(1.5)),
          axis.ticks.x = element_blank(),
          strip.background=element_rect(fill="black"),
          strip.text=element_text(color="white", face="bold"),
          legend.position = "none") +
    background_grid(major = "xy", minor = "none") 

boxplot vs. violinplot

据我所知,箱线图中的盒子端点分别代表第25%和第75%分位数,中位数为50%。因此,它们应该等于geom_violindraw_quantiles = c(0.25, 0.5, 0.75)参数中绘制的0.25 / 0.5 / 0.75分位数。

中位数和50%分位数是相符的。然而,0.25和0.75分位数都不符合箱线图的盒子端点(请参见图中特别是 'virginica' 面板)。

参考文献:

  1. http://docs.ggplot2.org/current/geom_violin.html

  2. http://docs.ggplot2.org/current/geom_boxplot.html

2个回答

10

这段内容太长了,不适合作为评论,所以我将其发表为答案。我看到两个潜在的原因导致了差异。首先,我理解 boxplot 指的是 boxplot.stats,它使用的 hinges 很相似但不一定与分位数相同。 ?boxplot.stats 说:

这两个“hinges”是第一和第三四分位数的版本,即接近于 quantile(x, c(1,3)/4)。对于奇数 n(其中 n <- length(x)),箱线图的“hinges”等于四分位数,并且对于偶数 n,两者不同。虽然对于满足 n %% 4 == 1 (n = 1 mod 4) 的 n ,四分位数仅等于观察值,但是对于满足 n %% 4 == 2 (n = 2 mod 4) 的 n,"hinges"也等于观察值,并且其他情况下处于两个观察值的中间。

因此,hinge vs. quantile 可能是差异的一个来源。

其次,geom_violin 引用了密度估计方法。源代码这里指向一个名为 StatYdensity 的函数,它让我想到了这里。我找不到函数 compute_density,但我认为(也由于一些帮助文件中的指针),它本质上是使用高斯核估计来估计密度的 density 函数。这可能(或可能不)解释了差异,但是

by(d$Sepal.Length, d$Species, function(x) boxplot.stats(x, coef=5)$stats )
by(d$Sepal.Length, d$Species, function(v) quantile(density(v)$x))

的确显示出不同的值。因此,我猜想差异是由于我们是基于观测值的经验分布函数还是基于核密度估计来查看分位数,尽管我承认我还没有得出最终结论。


1
你的回答很有道理,谢谢!我在所有这些分位数值修改中看到的问题(无论是“hinges”还是密度估计)是它们都涉及到最后一种“分位数”。geom_boxplot文档提到“上边缘,75%分位数”,而geom_violin文档直接称之为“draw_quantiles”。这让用户认为他们正在处理相同的统计数据,但实际上两者是不同的。 - pat-s

1
第二个因素@coffeinjunky提出的似乎是主要原因。以下是更多证据来支持这一点。
通过切换到geom_ydensity,可以从经验上证实差异是由geom_violin使用核密度估计来计算分位数而不是实际观测值造成的。例如,如果我们强制使用宽带宽(bw=1),则估计的密度将被过度平滑,并且与在箱形图中使用基于观测值的分位数偏离更远:
require(ggplot2)
require(cowplot)

theme_set(cowplot::theme_cowplot())

d = iris

ggplot2::ggplot(d, aes(factor(0), Sepal.Length)) + 
  stat_ydensity(bw=1, fill="black", alpha=0.2, draw_quantiles = c(0.25, 0.5, 0.75)
              , colour = "red", size = 1.5) +
  stat_boxplot(geom ='errorbar', width = 0.1)+
  geom_boxplot(width = 0.2)+
  facet_grid(. ~ Species, scales = "free_x") +
  xlab("") + 
  ylab (expression(paste("Value"))) +
  coord_cartesian(ylim = c(3.5,9.5)) + 
  scale_y_continuous(breaks = seq(4, 9, 1)) + 
  theme(axis.text.x=element_blank(),
        axis.text.y = element_text(size = rel(1.5)),
        axis.ticks.x = element_blank(),
        strip.background=element_rect(fill="black"),
        strip.text=element_text(color="white", face="bold"),
        legend.position = "none") +
  background_grid(major = "xy", minor = "none") 

enter image description here

所以,是的,要小心这个 - 密度估计的参数会影响结果!


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接