在R中的聚合和ifelse函数

Question

在R中的聚合和ifelse函数

3

附上一些R代码：

temp_df <- data.frame(c("A","A","A","G","G","Z","Z"),
                    c("B","D","E","R","S","Y","U"),
                    c(1.5,1.1,0.8,0.2,0.8,0.9,0.1),
                    c(0.8,0.4,1.5,1.2,1.2,0.2,0.3),
                    c(2.7,2.7,2.7,2.4,2.4,0.5,0.5),
                    c("YES","NO","NO","NO","NO","YES","YES"))

colnames(temp_df) <- c("PERSON_1","PERSON_2","VALUE_1",
                     "VALUE_2","TOTAL_2","DECISION_2")

我要做的是创建一个名为“NEW_DECISION_1”的新列，根据以下规则进行：

对于第一列（“PERSON_1”）中的人员，如果相应的第五列（“TOTAL_2”）的值大于或等于2.0，并且相应的第六列（“DECISION_2”）中至少有一个“YES”，那么“NEW_DECISION_1”列的值将为“YES”；如果这些条件不满足，则它们将获得“NO”值。

因此，对于第一列中的A人，由于第5列中的值为2.7，并且相应的第6列中至少有一个“YES”，因此新列中的值将为“YES”。

对于第一列中的G人，由于第5列中的值为2.4，但由于相应的第6列中没有“YES”值，因此新列中的值将为“NO”。

对于第一列中的Z人，由于第5列中的值为1.0，并且相应的第6列中至少有一个“YES”，因此新列中的值将为“NO”。

因此，新表格将是：

temp_df$NEW_DECISION_1 <- c("YES","YES","YES","NO","NO","NO","NO")
temp_df

我在考虑一些聚合规则，但我不确定要使用什么函数来搜索“至少一个“是”的情况。

如果您需要更多信息或澄清，请告诉我。

- Lorcan Treanor

2个回答

4

以下是基本的R语言解决方案：

result <- by(temp_df, 
  INDICES=temp_df$PERSON_1, 
  FUN=function(x) 
    within(x, DECISION_1 <- ifelse(any(grepl('YES', DECISION_2)) & TOTAL_2 >= 2, 
                                   'YES', 'NO')))
do.call(rbind, result)

#        PERSON_1 PERSON_2 VALUE_1 VALUE_2 TOTAL_2 DECISION_2 DECISION_1
#    A.1        A        B     1.5     0.8     2.7        YES        YES
#    A.2        A        D     1.1     0.4     2.7         NO        YES
#    A.3        A        E     0.8     1.5     2.7         NO        YES
#    G.4        G        R     0.2     1.2     2.4         NO         NO
#    G.5        G        S     0.8     1.2     2.4         NO         NO
#    Z.6        Z        Y     0.9     0.2     0.5        YES         NO
#    Z.7        Z        U     0.1     0.3     0.5        YES         NO

- Matthew Plourde

谢谢mplourde。你的回复非常快速和准确，但只能选择一个答案。不过对于未来的代码仍然非常有用 :) - Lorcan Treanor

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Sven Hohenstein · Accepted Answer

这里有一个使用`ddply`的解决方案：

library(plyr)
ddply(temp_df, .(PERSON_1), transform,
      NEW_DECISION_1 = c("NO", "YES")[(TOTAL_2 >= 2 &
                                       sum(DECISION_2 == "YES") > 0) + 1])

#   PERSON_1 PERSON_2 VALUE_1 VALUE_2 TOTAL_2 DECISION_2 NEW_DECISION_1
# 1        A        B     1.5     0.8     2.7        YES            YES
# 2        A        D     1.1     0.4     2.7         NO            YES
# 3        A        E     0.8     1.5     2.7         NO            YES
# 4        G        R     0.2     1.2     2.4         NO             NO
# 5        G        S     0.8     1.2     2.4         NO             NO
# 6        Z        Y     0.9     0.2     0.5        YES             NO
# 7        Z        U     0.1     0.3     0.5        YES             NO