我有一个数据集,其中包含制造单位的唯一ID、其产出的行业分类(CAT)以及每个单位雇用的人数(EMP)。我想通过图形化展示EMP随CAT变化的情况,即通常情况下,就业规模会因为单位生产的产出种类而异。我尝试使用按中位数EMP排列的箱线图:
a = read.csv("/filepath/plot.csv", header=T, stringsAsFactors=F)
bymedian = with(a, reorder(CAT, log(as.numeric(as.character(EMP))), median))
boxplot(log(EMP) ~ bymedian, data=a, horizontal=F, notch=T, pch=1, cex=.25, col="gray95", boxwex=.25, las=2, outline=F)
pch=1, cex=.25, col="gray95", boxwex=.25, las=2, outline=F)
问题在于由于分类太多(400+),图表变得非常混乱。有没有更清晰的方式来展示我想做的事情?