R代码：如何根据其他变量的多种条件生成变量

Question

R代码：如何根据其他变量的多种条件生成变量

3

我是一名初学者R用户：

这是我的数据集。

factor1 <- c(1, 1, 2, 2, 3, 3, 4, 4, 5, 5, 6, 6, 7, 7, 8,8,9, 9, 10, 10)
factor2 <- c(1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15,16,17, 18, 19, 20)
factor3 <- c("a", "a", "a", "a", "a", "b", "b", "b", "b", "b", "c", "c", "c", "c", "c", "d", "d", "d", "d", "d")
factor4 <- c(10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 110, 120, 130, 140, 150,160,170, 180, 190, NA)
dataset <- data.frame(factor1, factor2, factor3, factor4)

我这样创建了一个新的变量：

dataset$newvar <-"NA"

如何实现以下内容：

如果factor1>=5且factor2<19且factor3等于"b"或"c"且factor4不是missing，那么newvar的值应该为1，同时如果newvar也是missing，则将其赋值为1。

最好能够指定不同的条件，因此根据几个其他变量的值，一些观测值将在变量newvar中取值1、2、3和4。

在STATA中，这非常简单直观。我想知道是否有一种在R中实现相同功能的简单直观的方法。

- Xavier

dataset$newvar <- NA; dataset[dataset$factor1 >= 5 & dataset$factor2 < 19 & (dataset$factor3=="b" | dataset$factor3 =="c"), "newvar"] <- 1 - Jaap

这个有效了，谢谢。 - Xavier

1

顺便说一句：对于第一个问题的良好阐述和提供可重现示例，我给出+1的评价！ - Jaap

3个回答

2

在基础的R中，您只需执行以下操作（将我的评论提升为答案）：

dataset$newvar <- NA
dataset[dataset$factor1 >= 5 & dataset$factor2 < 19 & (dataset$factor3=="b" | dataset$factor3 =="c"), "newvar"] <- 1

或者：

dataset$newvar <- NA
indx <- dataset$factor1 >= 5 & dataset$factor2 < 19 & (dataset$factor3=="b" | dataset$factor3 =="c") & !is.na(dataset$factor4)
dataset[indx, "newvar"] <- 1

- Jaap

0

使用 dplyr

library(dplyr)

dataset %>%
  mutate(newvar = ifelse(factor1 > 5 & 
                         factor2 < 19 & 
                         (factor3=="b" | factor3=="c") & 
                         !is.na(factor4), 1, NA))

- C_Z_

抱歉，我遇到了这个错误：Error: could not find function "%>%". 你发送的代码看起来很整洁，但是无法运行。请问你能否帮我解决一下问题？谢谢。 - Xavier

嗨，我安装了dplyr并成功运行了您的代码，但由于某种原因，newvar没有改变我正在处理的数据集中的值。请问您能否提供建议？谢谢。 - Xavier

@AndréLopes，我提供的函数返回一个新数据集，而不是重写旧数据集。将第一行更改为 dataset <- dataset %>%，它应该会做你期望的事情。 - C_Z_

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Tfsnuff · Accepted Answer

根据几个条件为几个值生成新变量

这个问题的一部分没有明确说明：

理想情况下，我希望能够指定不同的条件，因此基于几个其他变量的值，有些观测值将是新变量中的值1、2、3和4。

一个简单的解决方案是使用 case_when。类似于Stata的recode, 它允许您同时指定多个值。

它的工作方式如下:

newvar = case_when(
condition1 ~ target value,
condition2 ~ target value)

如：

var1 == 1 ? 1 : 0,

重要提示：每行后面需要加上一个“,”符号。

library(dplyr)

dataset <- mutate(dataset,
        newvar = case_when(
               factor1 >= 5 & factor2<19 & (factor3 =="b" | factor3 =="c")  ~ 1, 
               factor1 == 1 ~ 2,
               factor1 == 2 ~ 3,
               TRUE ~ NA_real_ # This is for all other values 
             ))                # not covered by the above.

dataset


#       factor1 factor2 factor3 factor4 newvar
# 1        1       1       a      10      2
# 2        1       2       a      20      2
# 3        2       3       a      30      3
# 4        2       4       a      40      3
# 5        3       5       a      50     NA
# 6        3       6       b      60     NA
# 7        4       7       b      70     NA
# 8        4       8       b      80     NA
# 9        5       9       b      90      1
# 10       5      10       b     100      1
# 11       6      11       c     110      1
# 12       6      12       c     120      1
# 13       7      13       c     130      1
# 14       7      14       c     140      1
# 15       8      15       c     150      1
# 16       8      16       d     160     NA
# 17       9      17       d     170     NA
# 18       9      18       d     180     NA
# 19      10      19       d     190     NA
# 20      10      20       d      NA     NA

注意，您不能将缺失值NA用作目标值，而应使用以下之一：

NA_character_
NA_real_
NA_complex_
NA_double_