数据表中最频繁出现的内容

Question

数据表中最频繁出现的内容

3

请查看下面的示例数据。

我想要从名为“Start/End”的列以及“Duration”中识别出频繁的频率。欢迎任何帮助。

structure(list(serial = c(19050112, 19050112, 12201018, 17221212, 
19300613, 19050112, 13260115, 16151202, 16310311, 14291209, 12190516, 
15160311, 12201018, 34080603, 17221212, 19300613, 19050112, 15040801, 
13260115, 16151202), `Start/End` = c("t0730_0745 - t0730_0745", 
"t0745_0800 - t0745_0800", "t0800_0815 - t0800_0815", "t0800_0815 - t0800_0815", 
"t0800_0815 - t0800_0815", "t0800_0815 - t0800_0815", "t0800_0815 - t0800_0815", 
"t0800_0815 - t0800_0815", "t0800_0815 - t0800_0815", "t0800_0815 - t0800_0815", 
"t0800_0815 - t0800_0815", "t0800_0815 - t0800_0815", "t0815_0830 - t0815_0830", 
"t0815_0830 - t0815_0830", "t0815_0830 - t0815_0830", "t0815_0830 - t0815_0830", 
"t0815_0830 - t0815_0830", "t0815_0830 - t0815_0830", "t0815_0830 - t0815_0830", 
"t0815_0830 - t0815_0830"), Duration = c(2L, 2L, 2L, 2L, 2L, 
2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L), 
    Frequency = c(1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 
    1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L)), row.names = c(NA, -20L
), class = c("data.table", "data.frame"), .internal.selfref = <pointer: 0x000001824bb61ef0>)

- Rfanatic

2个回答

1

你可以在" - "上拆分字符串，使用table计算其频率，并获取出现最频繁的值。

sort(table(unlist(strsplit(df1$`Start/End`, ' - '))), decreasing = TRUE)[1]
#t0800_0815 
#        20

我们可以使用以下方式获取所有具有相似频率的值：

tab <- table(unlist(strsplit(df1$`Start/End`, ' - ')))
tab[tab == max(tab)]

- Ronak Shah

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- akrun · Accepted Answer

我们可以使用 data.table 方法。

library(data.table)
df1[, .(new = unlist(tstrsplit(`Start/End`, " - ")))][, 
          .N, new][N == max(N)]
#          new  N
#1: t0800_0815 20