使用ggplot2将密度直方图绘制为线条

4

我有一个简单的表格,涉及到我在三个网站(比如OpenTable,Yelp和TripAdvisor)收集到的评分。评分范围从1到5,因此Rating是一个因素列,而Website是另一个因素列(只允许3个值)。我只有这两列和所有观察结果。该结构是一个名为all的数据帧,包含上述列。例如:

Website           Rating
_________________________
Yelp                 1
TripAdvisor          2
Yelp                 3
OpenTable            2

我想要的是一个彩色密度图。我的问题与此帖子中发布的问题完全相同:使用因素创建ggplot2密度图,但是该解决方案对我无效。 我尝试了通过以下方式替换变量名称来使用它: ggplot(all, aes(rating, colour=website, group=website)) + geom_density(),但它不起作用。它没有给我一个插值曲线,而是给了我这个: My density plot。在我看来,我具有与链接线程中的OP相同的数据结构:一个数据框(all),其中有两个因子列(websiterating)。
> mode(all)
[1] "list"
> head(all$website)
[1] TripAdvisor TripAdvisor TripAdvisor TripAdvisor TripAdvisor TripAdvisor
Levels: TripAdvisor OpenTable Yelp
> head(all$rating)
[1] 1 2 1 4 5 2
Levels: 1 2 3 4 5

我的问题是:为什么我的行为不同?我该怎么做才能得到相同的结果?作为额外/不同的解决方案,我也想尝试使用直线插值来替代更复杂的核函数,但是我需要保留密度,因为一个网站的观察数量要比其他两个网站的总和多。
数据样本:
> dput(all[sample(nrow(all), 200),])
structure(list(website = structure(c(3L, 3L, 3L, 3L, 3L, 3L, 
3L, 3L, 3L, 1L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 
2L, 1L, 3L, 2L, 1L, 3L, 2L, 1L, 2L, 2L, 3L, 3L, 3L, 3L, 3L, 1L, 
3L, 3L, 1L, 3L, 2L, 3L, 3L, 3L, 3L, 2L, 3L, 3L, 3L, 3L, 3L, 3L, 
2L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 1L, 3L, 3L, 3L, 3L, 3L, 3L, 
3L, 3L, 3L, 3L, 3L, 3L, 1L, 3L, 1L, 3L, 2L, 3L, 3L, 3L, 3L, 3L, 
2L, 3L, 3L, 3L, 1L, 3L, 1L, 3L, 3L, 2L, 3L, 3L, 3L, 3L, 1L, 3L, 
3L, 3L, 3L, 3L, 2L, 3L, 1L, 3L, 3L, 3L, 3L, 3L, 2L, 3L, 1L, 3L, 
1L, 3L, 3L, 3L, 3L, 1L, 3L, 3L, 3L, 3L, 3L, 3L, 2L, 3L, 3L, 3L, 
3L, 3L, 2L, 3L, 3L, 3L, 3L, 3L, 3L, 1L, 3L, 3L, 3L, 3L, 3L, 3L, 
3L, 3L, 3L, 3L, 3L, 3L, 3L, 2L, 3L, 3L, 3L, 2L, 1L, 3L, 3L, 3L, 
1L, 3L, 3L, 2L, 3L, 3L, 3L, 3L, 1L, 3L, 3L, 3L, 3L, 1L, 3L, 3L, 
3L, 3L, 3L, 3L, 1L, 1L, 3L, 3L, 3L, 3L, 1L, 2L, 3L, 1L, 3L, 3L, 
3L, 3L), .Label = c("TripAdvisor", "OpenTable", "Yelp"), class = "factor"), 
    rating = c(2, 4, 5, 3, 5, 3, 2, 4, 4, 5, 5, 2, 5, 5, 4, 2, 
    5, 4, 5, 5, 4, 4, 3, 5, 3, 2, 4, 4, 4, 2, 4, 5, 3, 4, 5, 
    4, 4, 3, 5, 4, 5, 2, 5, 5, 4, 3, 1, 5, 5, 5, 5, 2, 4, 1, 
    1, 4, 4, 4, 3, 1, 5, 4, 4, 5, 4, 4, 5, 4, 1, 1, 3, 4, 5, 
    5, 5, 4, 5, 2, 3, 4, 2, 4, 4, 4, 3, 2, 4, 4, 4, 4, 5, 4, 
    5, 3, 1, 5, 2, 3, 5, 1, 5, 4, 4, 5, 5, 4, 4, 4, 4, 5, 4, 
    4, 4, 3, 3, 5, 2, 4, 3, 5, 3, 3, 3, 5, 4, 1, 3, 3, 5, 4, 
    4, 2, 2, 4, 3, 2, 5, 5, 5, 4, 5, 1, 2, 5, 2, 4, 2, 5, 3, 
    4, 4, 3, 4, 5, 3, 3, 5, 4, 2, 4, 5, 4, 1, 4, 5, 1, 5, 1, 
    2, 5, 3, 3, 4, 5, 4, 4, 3, 3, 4, 4, 3, 3, 4, 3, 4, 3, 4, 
    5, 3, 2, 5, 3, 4, 4, 1, 5, 4, 3, 5, 3)), .Names = c("website", 
"rating"), row.names = c(2736944L, 3701156L, 4217688L, 5350640L, 
3600261L, 2944052L, 3522393L, 5443298L, 3965562L, 490821L, 4706825L, 
1694078L, 3395609L, 2220568L, 2886121L, 4329867L, 3414341L, 4911507L, 
2629607L, 2547491L, 5254750L, 5089579L, 922864L, 643065L, 1797579L, 
782480L, 686194L, 5035633L, 998745L, 553929L, 888404L, 730158L, 
4357257L, 1824206L, 4941425L, 2910113L, 2006209L, 643302L, 1534660L, 
3489947L, 202175L, 2483374L, 820339L, 3411547L, 4792406L, 1379214L, 
3900503L, 1000939L, 3823518L, 5340233L, 1330743L, 5333146L, 3638755L, 
2445636L, 1057389L, 5092709L, 5092040L, 3841598L, 3739264L, 1482807L, 
1314908L, 2522682L, 1757427L, 723017L, 4809829L, 4636027L, 1728575L, 
2974897L, 3485658L, 2592565L, 3207974L, 2721825L, 4295506L, 4953206L, 
3325724L, 4706765L, 455090L, 5386094L, 612504L, 3483673L, 881132L, 
1715784L, 4478951L, 1995026L, 1640553L, 4213693L, 925338L, 4541407L, 
3602299L, 5233082L, 727017L, 4954392L, 270757L, 3436121L, 3793314L, 
824985L, 1558576L, 3659425L, 2131835L, 1721671L, 32696L, 3405602L, 
2736827L, 4403647L, 2171731L, 2954043L, 976434L, 3680791L, 30799L, 
4833704L, 3895171L, 4469617L, 2517017L, 4236947L, 733711L, 1480361L, 
255671L, 4847331L, 355851L, 2933805L, 5470569L, 3045714L, 3423394L, 
475428L, 4460007L, 4668961L, 1560070L, 3314368L, 2150067L, 4480758L, 
781676L, 3659111L, 4799721L, 3509779L, 5320687L, 5179115L, 852931L, 
4141898L, 4768793L, 1356381L, 3881247L, 1685112L, 2232222L, 315374L, 
1721551L, 1464571L, 2472040L, 3198238L, 4719488L, 2763751L, 2999152L, 
2042160L, 1374928L, 1703496L, 1805583L, 5192311L, 3558389L, 925026L, 
5497787L, 2464617L, 1850617L, 1047932L, 186007L, 3168546L, 1433736L, 
1548105L, 5450L, 5288180L, 2476807L, 997242L, 4693332L, 5107109L, 
3338800L, 2722363L, 58422L, 3408902L, 4537803L, 2780976L, 2129998L, 
376274L, 1773109L, 5138810L, 2364642L, 1087043L, 3318862L, 1567254L, 
418564L, 726387L, 4128160L, 4669905L, 1194602L, 2315020L, 211234L, 
818018L, 3378122L, 462827L, 1516313L, 3120210L, 4257323L, 5214034L
), class = "data.frame")

也许你需要将评分转换为数字格式.. all$rating <- as.numeric(all$rating) - agstudy
1
没有一个可复现的示例,真的很难解决这个问题。 - agstudy
1
当我创建了你所谓的数据格式并将其绘制出来时,我得到了正确的结果。因此,我支持提供一个可重现的示例。 - joran
4
顺便说一下,你展示的图表是一个插值曲线,只不过使用的带宽似乎不是你想要的那个。尝试在geom_density中设置较大的adjust值,例如1.5或2之类的数字,可以改善插值效果。 - joran
1
@Tex 输出一些样本数据 dput(all[sample(nrow(all), 200),])(在这种情况下是200行) - Ricardo Saporta
显示剩余3条评论
1个回答

7

正如 @joran 在他的评论中指出的那样,这似乎都是带宽的问题。如果我使用低带宽绘制你的示例数据,它看起来就像你提供的图片:

ggplot(all, aes(rating, colour=website, group=website)) + geom_density(adjust=0.1)

但是,如果具有高带宽,情况似乎就很不同:
ggplot(all, aes(rating, colour=website, group=website)) + geom_density(adjust=2)

enter image description here

如果您想只绘制相对频率连线图,我认为您需要事先计算它们。例如:

all.prop <- data.frame(prop.table(table(website=all$website, rating=all$rating),1))
ggplot(all.prop, aes(x=rating, y=Freq)) + geom_line(aes(group=website, color=website))

enter image description here


有趣的是,用整个数据集,我必须将带宽增加得比这更多:调整2给我与之前相同的图形。我必须选择 调整 > 10 才能看到接近你曲线的东西。此时,我在想是否应该绘制实际的点并将它们连接起来而不是插值。我该如何做到这一点?请注意,我不需要绝对值,而是需要相对频率。 - Tex
@Tex 在我的回答中添加了plot命令。 - juba
工作得非常完美,因为你对Joran的评论进行了补充 - 而该评论也得到了赞同。谢谢! - Tex

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接