按组计算非缺失值数量

Question

按组计算非缺失值数量

34

这是我的例子

mydf<-data.frame('col_1' = c('A','A','B','B'), 'col_2' = c(100,NA, 90,30))

我希望按照col_1进行分组，并计算在col_2中非NA元素的数量。

我希望使用dplyr完成此操作。以下是我尝试过的代码：

mydf %>% group_by(col_1) %>% summarise_each(funs(!is.na(col_2)))
mydf %>% group_by(col_1) %>% mutate(non_na_count = length(col_2, na.rm=TRUE))
mydf %>% group_by(col_1) %>% mutate(non_na_count = count(col_2, na.rm=TRUE))

什么都没用。有什么建议吗？

- user1700890

3个回答

8

我们可以对'col_2'中的NA元素进行筛选，然后对'col_1'进行计数。

mydf %>%
     filter(!is.na(col_2))  %>%
      count(col_1)
# A tibble: 2 x 2
#   col_1     n
#  <fctr> <int>
#1      A     1
#2      B     2

或者使用 data.table。

library(data.table)
setDT(mydf)[, .(non_na_count = sum(!is.na(col_2))), col_1]

或者使用来自 base R 的 aggregate

aggregate(cbind(col_2 = !is.na(col_2))~col_1, mydf, sum)
#  col_1 col_2
#1     A     1
#2     B     2

或者使用表格。

table(mydf$col_1[!is.na(mydf$col_2)])

- akrun

为什么最后的答案没有使用表：table(mydf$col_1[ , ! is.na(mydf$col_2)])？ - W Barker

5

library(knitr)
library(dplyr)

mydf <- data.frame("col_1" = c("A", "A", "B", "B"), 
                   "col_2" = c(100, NA, 90, 30))

mydf %>%
  group_by(col_1) %>%
  select_if(function(x) any(is.na(x))) %>%
  summarise_all(funs(sum(is.na(.)))) -> NA_mydf

kable(NA_mydf)

- Anya Sti

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Richard Telford · Accepted Answer

75

你可以使用这个。

mydf %>% group_by(col_1) %>% summarise(non_na_count = sum(!is.na(col_2)))

# A tibble: 2 x 2
   col_1 non_na_count
  <fctr>        <int>
1      A            1
2      B            2

- Richard Telford

15

要获取所有列的摘要，请使用 summarise_all(funs(sum(!is.na(.))))。这将返回每列中非缺失值的总数。 - cacti5

如果对col_2应用另一个汇总函数，请注意请求计算的顺序。

my_df％>% group_by（col_1）％>% summarize（col_1 = mean（col_1，na.rm = T），non_na_count = sum（！is.na（col_2）））

产生的结果与

my_df％>% group_by（col_1）％>% summarize（non_na_count = sum（！is.na（col_2）），col_1 = mean（col_1，na.rm = T））

不同。 - zack

@zack 我使用来自 Github 的 dplyr 版本 0.8.99.9002，两种顺序得到了相同的结果。 - Richard Telford

@RichardTelford 我在输入评论时犯了一个错误。在调用summarise时，应该尝试使用col_2 = mean(col_2, na.rm = T)而不是col_1 = mean(col_1, na.rm = T)。使用dplyr版本0.8.3，我得到了不同的结果。 - zack

为什么使用sum函数可以工作，因为它在计数？ - Ariel

1

!is.na() 将数据转换为 TRUE/FALSE。sum() 将 TRUE 视为 1，FALSE 视为 0，因此总和是非 NA 值的计数。 - Richard Telford