在R中从虚拟变量重构分类变量

Question

在R中从虚拟变量重构分类变量

4

嗨，我是一名R语言的初学者，目前遇到一个问题，还没有找到解决办法。我想把虚拟变量转换回分类变量。

|dummy1| dummy2|dummy3|
|------| ------|------|
| 0    | 1     |0     |
| 1    | 0     |0     |
| 0    | 1     |0     |
| 0    | 0     |1     |

into:

|dummy |
|------|
|dummy2|
|dummy1|
|dummy2|
|dummy3|

您知道如何在R中实现这个吗？提前感谢。

- waterline

3个回答

2

我们可以使用max.col。

data.frame(dummy = names(df1)[max.col(df1)])
#    dummy
#1 dummy2
#2 dummy1
#3 dummy2
#4 dummy3

数据

df1 <- structure(list(dummy1 = c(0L, 1L, 0L, 0L), dummy2 = c(1L, 0L, 
 1L, 0L), dummy3 = c(0L, 0L, 0L, 1L)), .Names = c("dummy1", "dummy2", 
 "dummy3"), class = "data.frame", row.names = c(NA, -4L))

- akrun

感谢您的回复。如果数据框中还有其他分类变量，而不仅仅是dummy1-3，例如教育程度1-4，我该怎么做呢？ - waterline

@waterline 然后只需对数据集进行子集处理，即 dummy，即 nm1 <- grep('dummy", names(df1), value = TRUE); nm1[max.col(df1[nm1])]。 - akrun

0

这里有一个使用tidyr::gather的整洁解决方案，将key视为每个虚拟变量所属类别的变量，value表示存在/不存在。在gather中用NA替换0，并结合na.rm = TRUE意味着我们不保留不需要的所有其他行，并且不创建不必要的大型中间数据集。

df1 <- structure(list(dummy1 = c(0L, 1L, 0L, 0L), dummy2 = c(1L, 0L, 
                                                             1L, 0L), dummy3 = c(0L, 0L, 0L, 1L), ed1 = c(1, 0, 1, 0), ed2 = c(0, 
                                                                                                                               1, 0, 1), id = c(1, 2, 3, 4)), .Names = c("dummy1", "dummy2", 
                                                                                                                                                                         "dummy3", "ed1", "ed2", "id"), row.names = c(NA, -4L), class = "data.frame")
library(tidyverse)
df1 %>%
  mutate_at(vars(dummy1:dummy3, ed1:ed2), ~ ifelse(. == 0, NA, .)) %>%
  gather("dummy", "present", dummy1:dummy3, na.rm = TRUE) %>%
  gather("ed", "present2", ed1:ed2, na.rm = TRUE) %>%
  select(-present, -present2)
#>   id  dummy  ed
#> 2  1 dummy2 ed1
#> 3  3 dummy2 ed1
#> 5  2 dummy1 ed2
#> 8  4 dummy3 ed2

这段代码是在2018年3月6日使用reprex package (v0.2.0)创建的。

- Calum You

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Frederich · Accepted Answer

你可以使用 data.table 来完成这个操作。

id_cols = c("x1", "x2") 
data.table::melt.data.table(data = dt, id.vars = id_cols, 
                            na.rm = TRUE, 
                            measure = patterns("dummy"))

示例：

t = data.table(dummy_a = c(1, 0, 0), dummy_b = c(0, 1, 0), dummy_c = c(0, 0, 1), id = c(1, 2, 3))
data.table::melt.data.table(data = t, 
                            id.vars = "id", 
                            measure = patterns("dummy_"), 
                            na.rm = T)[value == 1, .(id, variable)]

输出

   id variable
1:  1  dummy_a
2:  2  dummy_b
3:  3  dummy_c

如果你用NA替换0，那么在melt函数中设置na.rm = TRUE会更加简单，这样每一行带有NA的数据都会被删除。