R:可视化大量组之间的差异

3

我有一个数据集,其中包含制造单位的唯一ID、其产出的行业分类(CAT)以及每个单位雇用的人数(EMP)。我想通过图形化展示EMP随CAT变化的情况,即通常情况下,就业规模会因为单位生产的产出种类而异。我尝试使用按中位数EMP排列的箱线图:

a = read.csv("/filepath/plot.csv", header=T, stringsAsFactors=F)
bymedian = with(a, reorder(CAT, log(as.numeric(as.character(EMP))), median))
boxplot(log(EMP) ~ bymedian, data=a, horizontal=F, notch=T, pch=1, cex=.25, col="gray95", boxwex=.25, las=2, outline=F)
pch=1, cex=.25, col="gray95", boxwex=.25, las=2, outline=F)

问题在于由于分类太多(400+),图表变得非常混乱。有没有更清晰的方式来展示我想做的事情?
1个回答

3

使用ggplot2,您可以通过scale_x_discrete展示您想要做的事情。

图片描述

library(ggplot2)
a$bymedian = with(a, reorder(CAT, log(EMP), median))
p <- ggplot(a,aes(y=log(EMP),x=bymedian))+
     geom_boxplot()

breaks <- levels(a$bymedian)[seq(1,nlevels(a$bymedian),20)]
p %+% scale_x_discrete(breaks = breaks,  labels = breaks)

嗨,agstudy...我遇到了这个错误:"Error in seq.default(1, nlevels(a$bymedian), 20) : by参数中的错误符号" - user702432

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接