在R中获取因子中出现最频繁的元素

Question

在R中获取因子中出现最频繁的元素

5

我有一个存储在 R 变量中的字符串集，当我检查它的类时，显示它是一个因子。

例如：

mySet<-c("abc","abc","def","abc","def","efg","abc")

我希望能够获取在这个集合中出现次数最多的字符串（即在此例中为“abc”）。

我知道一种方法是使用hist()函数，但我遇到了数据类型问题，由于我是R的新手，我无法自己解决这个问题。

- arjun010

3个回答

6

对sqibb的改进:

names(which.max(table(mySet)))
# [1] "abc"

- BrodieG

1

这不是@sgibb答案的变体，而是他答案的正确版本。 - A5C1D2H2I1M1N2O1R2T1

注意：这个程序无法处理两个值出现次数相等的情况。 - BurninLeo

0

repeated <- function(x) as(names(which.max(table(x))), mode(x)) repeated(a) 其中a是一个包含单词或数字的向量

- Somyadeep Shrivastava

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- A5C1D2H2I1M1N2O1R2T1 · Accepted Answer

根据数据大小以及需要进行此类操作的频率，您可能需要花费一些时间编写更高效的函数。底层使用的是 tabulate, 这比 table 更快，因此可以得到以下类似的函数：

MaxTable <- function(InVec, mult = FALSE) {
  if (!is.factor(InVec)) InVec <- factor(InVec)
  A <- tabulate(InVec)
  if (isTRUE(mult)) {
    levels(InVec)[A == max(A)]
  } 
  else levels(InVec)[which.max(A)]
}

这个函数的设计也旨在识别最大值有多个的情况。请比较以下内容：

mySet <- c("A", "A", "A", "B", "B", "B", "C", "C")
## Your question indicates that you have factors,
##   but your sample code is a character vector
mySetF <- factor(mySet) ## Just as an example

## @BrodieG's answer
fun1 <- function(InVec) {
  names(which.max(table(InVec)))
}

## @sgibb's answer
fun2 <- function(InVec) {
  m <- which.max(table(as.character(InVec)))
  as.character(InVec)[m]
}

fun1(mySet)
# [1] "A"
fun2(mySet)
# [1] "A"
MaxTable(mySet)
# [1] "A"
MaxTable(mySet, mult = TRUE)
# [1] "A" "B"

library(microbenchmark)    
microbenchmark(fun1(mySet), fun2(mySet), MaxTable(mySet), MaxTable(mySetF))
# Unit: microseconds
#              expr     min       lq   median       uq      max neval
#       fun1(mySet) 291.457 297.1845 302.2080 313.1235 3008.108   100
#       fun2(mySet) 296.388 302.0775 311.3170 321.5260 1367.137   100
#   MaxTable(mySet) 172.463 180.8755 184.8355 189.9700 1947.700   100
#  MaxTable(mySetF)  34.510  38.1545  44.6045  46.6695   95.341   100

在小向量级别上，这个函数更加高效。对于因子向量来说，这一点更加明显。那么对于更大的向量呢？

set.seed(1)
medSet <- sample(c(LETTERS, letters), 1e5, TRUE)
medSetF <- factor(medSet)

fun1(medSet)
# [1] "E"
fun2(medSet) ### Wrong Answer!!!
# [1] "D"
MaxTable(medSet)
# [1] "E"

microbenchmark(fun1(medSet), MaxTable(medSet), MaxTable(medSetF))
# Unit: microseconds
#               expr       min        lq     median        uq       max neval
#       fun1(medSet) 14222.846 14350.957 14484.4490 14600.490 34810.174   100
#   MaxTable(medSet)  7787.761  7860.248  7917.3455  8019.068  9762.884   100
#  MaxTable(medSetF)   501.733   529.257   570.0735   587.936  1469.994   100

我已经从基准测试中删除了@sgibb的函数（与fun1()的运行时间大致相同），因为它返回了错误的答案。

最后一项基准测试....

set.seed(3)
bigSet <- sample(c(LETTERS, letters), 1e7, TRUE)
bigSetF <- factor(bigSet)
microbenchmark(fun1(bigSet), MaxTable(bigSet), MaxTable(bigSetF), times = 10)
# Unit: milliseconds
#               expr        min         lq     median         uq        max neval
#       fun1(bigSet) 1519.37503 1612.10290 1648.36473 1789.02965 1932.41073    10
#   MaxTable(bigSet)  782.01856  791.86408  834.35764  894.60535 1019.28747    10
#  MaxTable(bigSetF)   48.56459   48.76492   49.25444   49.93911   50.20404    10