获取所有可能答案的R频率计数

3

我开始学习R语言,对于语法还不太熟悉。 我想要获取一个经过缩放的变量在0到10之间的频率分布,其中可能包含NA值。

Id <- c(1,2,3,4,5)
ClassA <- c(1,NA,3,1,1)
ClassB <- c(2,1,1,3,3)
R <- c(5,5,7,NA,9)
S <- c(3,7,NA,9,5)
df <- data.frame(Id,ClassA,ClassB,R,S)
library(plyr)
count(df,'R')

我得到的结果是:
     R freq
  1  5    2
  2  7    1
  3  9    1
  4 NA    1

我在寻找以下结果:

    R freq
1   0    0
2   1    0
3   2    0
4   3    0
5   4    0
6   5    2
7   6    0
8   7    1
9   8    0
10  9    1
11  10   0
12  NA   1

如果我有一个展示可能结果的向量

RAnswers <- c(0,1,2,3,4,5,6,7,8,9,10,NA)

如何使用数据集来实现上述结果?

作为对已发布答案的补充,我想指出 count描述: "相当于 as.data.frame(table(x)),但不包括零计数的组合。" - Gabe
2个回答

1
这是一个以 table()match()replace() 为基础的 R 解决方案:

freq <- table(df$R,useNA='ifany');
freq;
##
##    5    7    9 <NA>
##    2    1    1    1
R <- c(0:10,NA);
df2 <- data.frame(R=R,freq=freq[match(R,as.integer(names(freq)))]);
df2$freq[is.na(df2$freq)] <- 0;
df2;
##     R freq
## 1   0    0
## 2   1    0
## 3   2    0
## 4   3    0
## 5   4    0
## 6   5    2
## 7   6    0
## 8   7    1
## 9   8    0
## 10  9    1
## 11 10    0
## 12 NA    1

编辑: Frank 给出了更好的答案,以下是如何使用 table() 函数来得到所需输出结果的方法:

setNames(nm=c('R','freq'),data.frame(table(factor(df$R,levels=RAnswers,exclude=NULL))));
##       R freq
## 1     0    0
## 2     1    0
## 3     2    0
## 4     3    0
## 5     4    0
## 6     5    2
## 7     6    0
## 8     7    1
## 9     8    0
## 10    9    1
## 11   10    0
## 12 <NA>    1

5
我认为 table(factor(df$R, levels = RAnswers, exclude = NULL)) 可以使用。(也许您没有注意到原始问题中的 Ranswers?) - Frank
table(factor(df$R, levels = RAnswers, exclude = NULL))输出正确答案但没有标签。需要添加什么才能得到相同的输出? - Keith John Hutchison

1
这种任务可以使用dplyr包轻松完成。为了保留R中未使用的值,您需要将R定义为因子并使用tidyr的complete函数。
library(dplyr)
library(tidyr)
df %>%
    mutate(R = factor(R, levels=1:10)) %>%
    group_by(R) %>%
    summarise(freq=n()) %>%
    complete(R, fill=list(freq=0))

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接