使用ggplot在R中改变箱线图中的异常值计算

3
我正在尝试自定义箱线图,除了一个问题,我取得了相当大的成功。我无法理解的一点是如何使用stat_summary来显示异常值。我在一个大图中有不同的箱线图,但是输出上没有显示异常值。然而,如果我修改我的数据,并且只向R提供一种类型的数据(仅用于单个箱线图),那么我的代码可以正常工作,并且我可以在输出中清晰地看到异常值。感谢任何帮助。
非常感谢,
f <- function(x) {r <- c(    quantile(x,probs=c(0.25))-(1.5*(quantile(x,probs=c(0.75))-quantile(x,probs=c(0.25))))     ,quantile(x, probs = c(0.25)), quantile(x, probs = c(0.5)), quantile(x, probs = c(0.75)),     quantile(x,probs=c(0.75))+(1.5*(quantile(x,probs=c(0.75))-quantile(x,probs=c(0.25)))) );names(r) <- c('ymin', 'lower', 'middle', 'upper', 'ymax'); r}
o <-function(x) { print(x); if (length(x) > 7) { pp = subset(x, x < (quantile(x, probs = c(0.25)) - (1.5 * (quantile(x, probs = c(0.75)) - quantile(x, probs = c(0.25))))) | x > (quantile(x, probs = c(0.75)) + (1.5 * (quantile(x, probs = c(0.75)) - quantile(x, probs = c(0.25)))))); return (pp)} else { return (NA)} }

dt=read.table("C:/...../test.txt",header=TRUE,sep=",")
data<-data.frame(x=dt$x,day=dt$day)
dev.new();ggplot(data, aes(x,day)) +   stat_summary(fun.data=f, geom='boxplot')+stat_summary(fun.data =o, geom='point', col='red')#+  stat_summary(fun.y = o2, geom='point', col='red')
2个回答

5
关键是将所有数据保留在同一列,并添加一个标签列以区分变量。如果您使用自定义函数在数据框中检测异常值,则可以完全放弃stat_summary函数。
改编自在R中标记箱线图的异常值
library(ggplot2)
library(data.table)

# Generate sample
set.seed(123)
n <- 500
dat <- data.table(group=c(rep("A", n/2) , rep("B", n/2)), value=rnorm(n))

请注意,我们的示例数据将变量A和B包含在同一列中,仅通过组标识符进行区分。
# Create outlier function
check_outlier <- function(v, coef=1.5){
  quantiles <- quantile(v, probs=c(0.25,0.75) )
  IQR <- quantiles[2] - quantiles[1]
  res <- (v < ( quantiles[1]- coef*IQR )) | (v > ( quantiles[2]+ coef*IQR ))
  return(res)
}

# Apply with data.table "by" method
dat[, outlier:=check_outlier(value), by=group]

这个函数并不常见,它是data.table包的一部分,但主要作用是向数据框添加一列,其中异常值标记为TRUE。

# Plot
ggplot(dat, aes(x=group,y=value)) + 
  geom_boxplot()

从那里开始自定义你的图表。

嗨,克里斯,谢谢你的回答。非常感激。真遗憾,我刚看到它,不知道为什么我没有收到通知。 - Mohsen Sichani
@mohsenhs 没问题,很高兴能帮助你。 - Chris Conlan

1
感谢Chris的帮助。
问题与我的o函数有关。
 o <-function(x)  {    pp= subset(x, x <(quantile(x, probs = c(0.25)) - (1.5 * (quantile(x, probs = c(0.75)) - quantile(x, probs = c(0.25))))) | x > (quantile(x, probs = c(0.75)) + (1.5 * (quantile(x, probs = c(0.75)) - quantile(x, probs = c(0.25))))));if(length(pp)<1){pp=c(1);return(pp)}else { return (NA)}}

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接