使用spread函数处理具有重复行标识符的数据

Question

使用spread函数处理具有重复行标识符的数据

30

我有一个长格式的数据框，其中同一日期和人员有多个条目。

jj <- data.frame(month=rep(1:3,4),
             student=rep(c("Amy", "Bob"), each=6),
             A=c(9, 7, 6, 8, 6, 9, 3, 2, 1, 5, 6, 5),
             B=c(6, 7, 8, 5, 6, 7, 5, 4, 6, 3, 1, 5))

我希望将其转换为宽格式，并使其像这样：

month Amy.A Bob.A Amy.B Bob.B
1     
2     
3
1
2
3
1
2
3
1
2
3

我的问题与这个非常相似。我已经使用了答案中提供的代码：

kk <- jj %>% 
  gather(variable, value, -(month:student)) %>% 
  unite(temp, student, variable) %>% 
  spread(temp, value)

但是它会显示以下错误：

错误：行（1, 4）、（2, 5）、（3, 6）、（13, 16）、（14, 17）、（15, 18）、（7, 10）、（8, 11）、（9, 12）、（19, 22）、（20, 23）和（21, 24）存在重复标识符。

提前感谢。注：我不想删除多个条目。

- Polar Bear

1

输出没有意义。Bob.B是5 6 7吗？月份1有两个Bob B值，分别为5 3？月份2为4和2。最后，对于月份3是6 5。您需要将这些总结为一个值。 - Pierre L

4个回答

21

问题在于A和B列都有两列。如果我们可以使它们成为一个值列，那么我们就可以按照您想要的方式展开数据。使用下面的代码查看jj_melt的输出。

library(reshape2)
jj_melt <- melt(jj, id=c("month", "student"))
jj_spread <- dcast(jj_melt, month ~ student + variable, value.var="value", fun=sum)
#   month Amy_A Amy_B Bob_A Bob_B
# 1     1    17    11     8     8
# 2     2    13    13     8     5
# 3     3    15    15     6    11

我不会将其标记为重复，因为另一个问题没有使用sum进行总结，但是data.table的答案可以帮助使用一个附加参数fun=sum:

library(data.table)
dcast(setDT(jj), month ~ student, value.var=c("A", "B"), fun=sum)
#    month A_sum_Amy A_sum_Bob B_sum_Amy B_sum_Bob
# 1:     1        17         8        11         8
# 2:     2        13         8        13         5
# 3:     3        15         6        15        11

如果您想使用 tidyr 解决方案，请将其与 dcast 结合使用，以按 sum 汇总。

as.data.frame(jj)
library(tidyr)
jj %>% 
  gather(variable, value, -(month:student)) %>%
  unite(temp, student, variable) %>%
  dcast(month ~ temp, fun=sum)
#   month Amy_A Amy_B Bob_A Bob_B
# 1     1    17    11     8     8
# 2     2    13    13     8     5
# 3     3    15    15     6    11

编辑

根据您的新需求，我已经添加了一个活动列。

library(dplyr)
jj %>% group_by(month, student) %>% 
  mutate(id=1:n()) %>%
  melt(id=c("month", "id", "student")) %>%
  dcast(... ~ student + variable, value.var="value")
#   month id Amy_A Amy_B Bob_A Bob_B
# 1     1  1     9     6     3     5
# 2     1  2     8     5     5     3
# 3     2  1     7     7     2     4
# 4     2  2     6     6     6     1
# 5     3  1     6     8     1     6
# 6     3  2     9     7     5     5

其他解决方案也可以使用。这里我添加了一个可选表达式来按活动编号排列最终输出:

其他解决方案也可以使用。这里我添加了一个可选表达式来按活动编号排列最终输出：

library(tidyr)
jj %>% 
  gather(variable, value, -(month:student)) %>%
  unite(temp, student, variable) %>%
  group_by(temp) %>%
  mutate(id=1:n()) %>%
  dcast(... ~ temp) %>%
  arrange(id)
#   month id Amy_A Amy_B Bob_A Bob_B
# 1     1  1     9     6     3     5
# 2     2  2     7     7     2     4
# 3     3  3     6     8     1     6
# 4     1  4     8     5     5     3
# 5     2  5     6     6     6     1
# 6     3  6     9     7     5     5

data.table 语法紧凑，因为它允许多个 value.var 列，并且会为我们处理展开功能。因此，我们可以跳过 melt -> cast 过程。

library(data.table)
setDT(jj)[, activityID := rowid(student)]
dcast(jj, ... ~ student, value.var=c("A", "B"))
#    month activityID A_Amy A_Bob B_Amy B_Bob
# 1:     1          1     9     3     6     5
# 2:     1          4     8     5     5     3
# 3:     2          2     7     2     7     4
# 4:     2          5     6     6     6     1
# 5:     3          3     6     1     8     6
# 6:     3          6     9     5     7     5

- Pierre L

谢谢回答。我不想求和。不需要任何算术运算。我想为Amy创建A和B列，为Bob创建A和B列，这些列只需具有各自的值即可。 - Polar Bear

1

如果同一月份、学生和班级有两个值，您想选择哪一个？ - Pierre L

我都想要。实际上，我正在处理买入和卖出数据，因此有多个条目。 - Polar Bear

1

因此，您不是根据疑问变量进行汇总。您需要一个新的变量作为活动ID。此外，请不要在问题中使用代码片段。它们无法正常工作，输出结果也会混乱。只需突出显示您的代码，粘贴，突出显示并使用Ctrl + K缩进为可读格式的代码。 - Pierre L

1

我们本可以使用 dcast(month + id ~ temp, value.var="value")。但我们使用了一些技巧来缩短它。三个点（所有其他列）使我们不必写 month + id，也不必写 value.var="value"，因为该函数将通过使用最后一列来猜测值列。 - Pierre L

显示剩余2条评论

2

自从 tidyr 1.0.0 推荐使用 pivot_wider 替代 spread，您可以执行以下操作：

jj <- data.frame(month=rep(1:3,4),
                 student=rep(c("Amy", "Bob"), each=6),
                 A=c(9, 7, 6, 8, 6, 9, 3, 2, 1, 5, 6, 5),
                 B=c(6, 7, 8, 5, 6, 7, 5, 4, 6, 3, 1, 5))

library(tidyr)

pivot_wider(
  jj,
  names_from = "student",
  values_from = c("A","B"),
  names_sep = ".",
  values_fn = list(A= list, B= list)) %>%
  unchop(everything())
#> # A tibble: 6 x 5
#>   month A.Amy A.Bob B.Amy B.Bob
#>   <int> <dbl> <dbl> <dbl> <dbl>
#> 1     1     9     3     6     5
#> 2     1     8     5     5     3
#> 3     2     7     2     7     4
#> 4     2     6     6     6     1
#> 5     3     6     1     8     6
#> 6     3     9     5     7     5

^{本文由reprex包 (v0.3.0)于2019-09-14创建}

这个问题的难点在于每个学生的月份不唯一，为了解决这个问题：

values_fn = list(A= list, B= list)) 将多个值放入列表中
unchop(everything()) 将列表垂直展开，也可以使用unnest

- moodymudskipper

1

如果我们创建一个独特的序列，那么我们可以使用pivot_wider以正确的格式输出。

library(dplyr)
library(tidyr)
jj %>%
   group_by(month, student) %>% 
   mutate(rn = row_number()) %>%
   pivot_wider(names_from = 'student', values_from = c('A', 'B'), 
          names_sep='.')  %>% 
   select(-rn)
# A tibble: 6 x 5
# Groups:   month [3]
#  month A.Amy A.Bob B.Amy B.Bob
#  <int> <dbl> <dbl> <dbl> <dbl>
#1     1     9     3     6     5
#2     2     7     2     7     4
#3     3     6     1     8     6
#4     1     8     5     5     3
#5     2     6     6     6     1
#6     3     9     5     7     5

数据

jj <- structure(list(month = c(1L, 2L, 3L, 1L, 2L, 3L, 1L, 2L, 3L, 
1L, 2L, 3L), student = structure(c(1L, 1L, 1L, 1L, 1L, 1L, 2L, 
2L, 2L, 2L, 2L, 2L), .Label = c("Amy", "Bob"), class = "factor"), 
    A = c(9, 7, 6, 8, 6, 9, 3, 2, 1, 5, 6, 5), B = c(6, 7, 8, 
    5, 6, 7, 5, 4, 6, 3, 1, 5)), class = "data.frame", row.names = c(NA, 
-12L))

- akrun

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- aliawadh980 · Accepted Answer

你的答案缺少突变id！以下是仅使用dplyr包的解决方案。

jj %>% 
  gather(variable, value, -(month:student)) %>% 
  unite(temp, student, variable) %>% 
  group_by(temp) %>% 
  mutate(id=1:n()) %>% 
  spread(temp, value) 
#  A tibble: 6 x 6
#  month    id Amy_A Amy_B Bob_A Bob_B
# * <int> <int> <dbl> <dbl> <dbl> <dbl>
# 1     1     1     9     6     3     5
# 2     1     4     8     5     5     3
# 3     2     2     7     7     2     4
# 4     2     5     6     6     6     1
# 5     3     3     6     8     1     6
# 6     3     6     9     7     5     5