基于两个其他列创建新列,但在两者都存在时取平均值

9

我有两个数字列score.ascore.b。我想创建一个新的变量score.c,将观察到的得分从a或b中转移,但当它们都被观察到时,我需要取平均值。

help <- data.frame(deid = c(5, 7, 12, 15, 25, 32, 42, 77, 92, 100, 112, 113),
               score.a = c(NA, 2, 2, 2, NA, NA, NA, NA, NA, NA, 2, NA),
               score.b = c(4, NA, NA, 4, 4, 4, NA, NA, 4, 4, NA, 4))

创建
    deid score.a score.b
1     5      NA       4
2     7       2      NA
3    12       2      NA
4    15       2       4
5    25      NA       4
6    32      NA       4
7    42      NA      NA
8    77      NA      NA
9    92      NA       4
10  100      NA       4
11  112       2      NA
12  113      NA       4

And I am hoping to create a df that looks like

     deid score.a score.b score.c
1     5      NA       4     4
2     7       2      NA     2
3    12       2      NA     2
4    15       2       4     3
5    25      NA       4     4
6    32      NA       4     4
7    42      NA      NA     NA
8    77      NA      NA     NA
9    92      NA       4     4
10  100      NA       4     4
11  112       2      NA     2
12  113      NA       4     4

例如,在第4行中,它取平均值。
我的尝试使用help %>% group_by(deid) %>% mutate(score.c = (score.a + score.b)/2),但这只处理了两列中观察到的数据。
2个回答

9

尝试

  help$score.c <- rowMeans(help[2:3], na.rm=TRUE)

或者使用可能的方法是使用dplyr(未经充分测试)

 library(dplyr)
 help %>%
     mutate(val= (pmax(score.a, score.b, na.rm=TRUE)+
                  pmin(score.a, score.b, na.rm=TRUE))/2)

1
如果你需要在 dplyr 中执行此操作,可以尝试使用 help %>% mutate(val= (pmax(score.a, score.b, na.rm=TRUE)+pmin(score.a, score.b, na.rm=TRUE))/2) - akrun
好的,谢谢...我不熟悉pmax()和pmin(),所以我会去查一下。 - b222

4
一种 data.table 的解决方案是:
library(data.table)
setDT(help)
help[,.(rMean=rowMeans(.SD,na.rm = T)),.SDcols = c('score.a','score.b')]

help <- setDT(help) 是用来做什么的?setDT(help) 会就地修改数据。 - David Arenburg

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接