使用dplyr进行总结给出错误结果。

Question

使用dplyr进行总结给出错误结果。

3

我有这个数据集：

structure(list(id = c(2004938L, 2107410L, 2119255L, 2129457L, 
2141169L, 2172051L), date = structure(c(17725, 17732, 17733, 
17734, 17734, 17736), class = "Date"), hour = c(20, 22, 18, 12, 
21, 22), store_name = c("Www Cigarsindia In India S Largest And Trusted Online Cigar Store Since 1998", 
"Www Cigarsindia In India S Largest And Trusted Online Cigar Store Since 1998", 
"Www Cigarsindia In India S Largest And Trusted Online Cigar Store Since 1998", 
"Www Cigarsindia In India S Largest And Trusted Online Cigar Store Since 1998", 
"Www Cigarsindia In India S Largest And Trusted Online Cigar Store Since 1998", 
"Www Cigarsindia In India S Largest And Trusted Online Cigar Store Since 1998"
), area = c("Indiranagar, EGL", "Indiranagar, EGL", "Indiranagar, EGL", 
"Indiranagar, EGL", "Indiranagar, EGL", "Indiranagar, EGL"), 
    amount = c(900, 2400, 2700, 380, 150, 100)), row.names = c(6264L, 
10841L, 11355L, 11892L, 12348L, 13570L), class = "data.frame")

让我们称之为“e”。

我想总结如下：

f = e %>%
dplyr::group_by(date, store_name, area) %>%
dplyr::summarize(amount = sum(amount, na.rm = TRUE), amount_after_8 = sum(amount[hour >= 20], na.rm = TRUE))

这将输出 "f"，结果如下：

structure(list(date = structure(c(17725, 17732, 17733, 17734, 
17736), class = "Date"), store_name = c("Www Cigarsindia In India S Largest And Trusted Online Cigar Store Since 1998", 
"Www Cigarsindia In India S Largest And Trusted Online Cigar Store Since 1998", 
"Www Cigarsindia In India S Largest And Trusted Online Cigar Store Since 1998", 
"Www Cigarsindia In India S Largest And Trusted Online Cigar Store Since 1998", 
"Www Cigarsindia In India S Largest And Trusted Online Cigar Store Since 1998"
), area = c("Indiranagar, EGL", "Indiranagar, EGL", "Indiranagar, EGL", 
"Indiranagar, EGL", "Indiranagar, EGL"), amount = c(900, 2400, 
2700, 530, 100), amount_after_8 = c(900, 2400, 0, 0, 100)), row.names = c(NA, 
-5L), class = c("grouped_df", "tbl_df", "tbl", "data.frame"), vars = c("date", 
"store_name"), drop = TRUE)

现在这个输出是错误的，因为“e”中的第5行包含一个金额值为150，它也满足hour>=20的条件，但在输出数据集“f”中显示为0。

我在这里做错了什么？

- Kenneth Singh

3

您在计算 amount_after_8 之前修改了 amount，请尝试使用不同的输出名称。 - Tung

我现在简直要砸碎我的脑袋了！它成功了！非常感谢！ - Kenneth Singh

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Kim · Accepted Answer

以下内容可行：

e %>%
  dplyr::group_by(date, store_name, area) %>%
  dplyr::summarize(
  amount_after_8 = sum(amount[hour >= 20], na.rm = TRUE), amount = sum(amount, na.rm = TRUE)
)

问题在于summarize按顺序工作，所以当它到达amount_after_8时，amount已经是一个总结输出。