我是一个熟练使用Excel数据透视表的用户,现在正在努力学习R语言。我知道如何在Excel中进行这种分析,但无法找到在R中编写代码的正确方法。
我试图通过2个不同的变量对用户数据进行分组,并将这些变量分组为范围(或bin),然后汇总其他变量。
以下是数据样本:
这是我想要输出的结果:
想要按访问量和帖子数量分组,每组10个,直到达到某个级别,然后把大于50的一组为“> 51”。
我已经尝试使用tapply和ddply来实现这个需求,但我认为它们不会按照我的期望工作,但我可能是错的。
最后,我知道我可以使用SQL,在if/then语句中识别访问量和帖子数量的范围(例如-如果访问量在1到10之间,则为“1-10”),然后仅按访问量范围和帖子范围进行分组,但我的目标是开始强迫自己使用R。也许R在这里不是正确的工具,但我认为它是...
非常感谢您提供的任何帮助。预先致谢。
我试图通过2个不同的变量对用户数据进行分组,并将这些变量分组为范围(或bin),然后汇总其他变量。
以下是数据样本:
userid visits posts revenue
1 25 0 25
2 2 2 0
3 86 7 8
4 128 24 94
5 30 5 18
… … … …
280000 80 10 100
280001 42 4 25
280002 31 8 17
这是我想要输出的结果:
VisitRange PostRange # of Users Total Revenue Average Revenue
0 0 X Y Z
1-10 0 X Y Z
11-20 0 X Y Z
21-30 0 X Y Z
31-40 0 X Y Z
41-50 0 X Y Z
> 50 0 X Y Z
0 1-10 X Y Z
1-10 1-10 X Y Z
11-20 1-10 X Y Z
21-30 1-10 X Y Z
31-40 1-10 X Y Z
41-50 1-10 X Y Z
> 50 1-10 X Y Z
想要按访问量和帖子数量分组,每组10个,直到达到某个级别,然后把大于50的一组为“> 51”。
我已经尝试使用tapply和ddply来实现这个需求,但我认为它们不会按照我的期望工作,但我可能是错的。
最后,我知道我可以使用SQL,在if/then语句中识别访问量和帖子数量的范围(例如-如果访问量在1到10之间,则为“1-10”),然后仅按访问量范围和帖子范围进行分组,但我的目标是开始强迫自己使用R。也许R在这里不是正确的工具,但我认为它是...
非常感谢您提供的任何帮助。预先致谢。