我的数据集看起来像这样
library(dyplr)
dta = rbind(c(1,'F', 0),
c(1,'F', 0),
c(1,'F', 0),
c(2,'F', 1),
c(2,'F', 1),
c(3,'F', 1),
c(3,'F', 1),
c(3,'F', 1),
c(4,'M', 1),
c(4,'M', 1),
c(5,'M', 1),
c(6,'M', 0)
)
colnames(dta) <- c('id', 'sex', 'child')
dta = as.data.frame(dta)
数据是长格式,其中id作为个人标识符。
我的问题是当我尝试计算性别时,由于id的重复,我没有正确的计数。
所以有3个女性和3个男性。
但是当我计数时,我有:
dta %>%
group_by(sex) %>%
summarise(n())
8 和 4 - 因为它计算的是行,而不是唯一的id
跨表也有同样的问题
dta %>%
group_by(sex, child) %>%
summarise(n())
如何在计数中指示唯一标识符(n_distinct
)?
c(1,"F",0)
是一个字符向量。 - Frank