使用Dplyr / TidyR & Complete补全数据的缺失列和行？

Question

使用Dplyr / TidyR & Complete补全数据的缺失列和行？

4

我很习惯于添加缺失数据的情况，但这种用例使我无法理解。

我有许多数据框（略有不同），例如：

> t1
  3 4 5
2 1 0 0
3 0 2 2
4 2 6 4
5 1 2 1

structure(list(`3` = c(1L, 0L, 2L, 1L), `4` = c(0L, 2L, 6L, 2L
), `5` = c(0L, 2L, 4L, 1L)), .Names = c("3", "4", "5"), row.names = c("2", 
"3", "4", "5"), class = "data.frame")

行名和列名应该从1到5，并且缺失的单元格值应设置为NA。对于上面的示例，应该是：

> t1
  1  2  3  4  5
1 NA NA NA NA NA
2 NA NA 1  0  0
3 NA NA 0  2  2
4 NA NA 2  6  4
5 NA NA 1  2  1

在每种情况下，任何一个或多个行和/或列可能会丢失。

我可以轻松地使用Josh O'Brien在这里描述的方法获取缺失的列，但是缺少行的方法。

有人能帮忙吗？

- BarneyC

1

在base R中，您可以执行 m1 <- matrix(NA, ncol=5, nrow=5, dimnames = list(1:5, 1:5)); m1[row.names(t1), colnames(t1)] <- unlist(t1)。 - akrun

1

哇，那是一个超级高效的方法。我刚刚设法弄清楚如何在行名上使用setdiff。但仍然只有一行脚本，而不是大约8行！谢谢Akrun（一如既往）。 - BarneyC

2个回答

0

根据Josh O'Brien提到的解决方案，您可以使用rownames而不是names来完成相同的操作。请查看下面的代码。

df <- data.frame(a=1:4, e=4:1)
colnms <- c("a", "b", "d", "e") 
rownms <- c("1", "2", "3", "4", "5")
rownames(df) <- c("1", "3", "4", "5")

## find missing columns and replace with zero, and order them
Missing <- setdiff(colnms, names(df))
df[Missing] <- 0
df <- df[colnms]
df

## do the same for rows
MissingR <- setdiff(rownms, rownames(df))
df[MissingR,] <- 0
df <- df[rownms,]
df

# > df
#  a b d e
#1 1 0 0 4
#2 0 0 0 0
#3 2 0 0 3
#4 3 0 0 2
#5 4 0 0 1

- Fadwa

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- akrun · Accepted Answer

我们可以使用base R更轻松地完成这个任务，只需创建一个所需尺寸的NA矩阵，然后根据't1'的行名和列名赋值给它。

m1 <- matrix(NA, ncol=5, nrow=5, dimnames = list(1:5, 1:5))
m1[row.names(t1), colnames(t1)] <- unlist(t1)
m1
#   1  2  3  4  5
#1 NA NA NA NA NA
#2 NA NA  1  0  0
#3 NA NA  0  2  2
#4 NA NA  2  6  4
#5 NA NA  1  2  1

或者使用 tidyverse

library(tidyverse)
rownames_to_column(t1, "rn") %>% 
      gather(Var, Val, -rn) %>% 
      mutate_at(vars(rn, Var), as.integer) %>%
      complete(rn = seq_len(max(rn)), Var = seq_len(max(Var))) %>% 
      spread(Var, Val)
# A tibble: 5 × 6
#     rn   `1`   `2`   `3`   `4`   `5`
#* <int> <int> <int> <int> <int> <int>
#1     1    NA    NA    NA    NA    NA
#2     2    NA    NA     1     0     0
#3     3    NA    NA     0     2     2
#4     4    NA    NA     2     6     4
#5     5    NA    NA     1     2     1