在R中计算每个列中超过一定阈值范围的值的数量

4
如何计算超出一系列阈值的每列值的数量?
即:对于每个列,计算超过100,然后是超过150,再然后是超过...的值的数量,并将结果存储在数据帧中?
# Reproductible data
# (Original data is daily streamflow values organized in columns per year)

set.seed(1234)
data = data.frame("1915" = runif(365, min = 60, max = 400),
                  "1916" = runif(365, min = 60, max = 400),
                  "1917" = runif(365, min = 60, max = 400))

# my code chunck

mymin = 75
mymax = 400
my step = 25

apply(data, 2, function (x) {
  for(i in seq(mymin,mymax,mystep)) {
    res = (sum(x > i)) # or nrow(data[x > i,])
    return(res)
  }
})


这段代码可以成功地执行一次,但我无法将每次迭代的结果存储在数据框中。 我还尝试了其他方法,例如:
for (i in 1:n){
  seuil = seq(mymin, mymax, my step)
  lapply(data, function(x) {
    res [[i]] = nrow(data[ x > seuil[i], ])
    return(res)}
})

这并不是非常有效的方式...

输出结果可能如下所示:

年份 高于75的n值 高于100的n值 高于...的n值
1915 348 329 ...
1916 351 325 ...
... ... ... ...

感谢您的评论和建议 :)

2个回答

2

您可以尝试以下方法:

vals <- seq(mymin,mymax,mystep)
mat <- sapply(vals, function(x) sapply(data, function(y) sum(y > x)))
colnames(mat) <- paste0('values_above_', vals)
mat

#      values_above_75 values_above_100 values_above_125 values_above_150 values_above_175
#X1915             348              329              303              276              235
#X1916             351              325              305              277              252
#X1917             345              315              291              260              236

#      values_above_200 values_above_225 values_above_250 values_above_275 values_above_300
#X1915              212              186              153              126              104
#X1916              226              204              181              146              118
#X1917              208              186              161              133               99

#      values_above_325 values_above_350 values_above_375 values_above_400
#X1915               74               49               28                0
#X1916               92               62               40                0
#X1917               81               60               34                0

0
myseq <- seq(75, 400, by=25)
as.data.frame(do.call(rbind, lapply(data, function(z) table(findInterval(z, myseq)))))
#        0  1  2  3  4  5  6  7  8  9 10 11 12 13
# X1915 17 19 26 27 41 23 26 33 27 22 30 25 21 28
# X1916 14 26 20 28 25 26 22 23 35 28 26 30 22 40
# X1917 20 30 24 31 24 28 22 25 28 34 18 21 26 34

或者如果你喜欢R使用cut生成的factor级别,那么

as.data.frame(do.call(rbind, lapply(data, function(z) table(cut(z, myseq)))))
#       (75,100] (100,125] (125,150] (150,175] (175,200] (200,225] (225,250] (250,275] (275,300] (300,325] (325,350] (350,375] (375,400]
# X1915       19        26        27        41        23        26        33        27        22        30        25        21        28
# X1916       26        20        28        25        26        22        23        35        28        26        30        22        40
# X1917       30        24        31        24        28        22        25        28        34        18        21        26        34

谢谢!两个代码都运行得非常好(第一个会给出以下错误信息,但对结果没有影响:```` 警告信息: 在(function(...,deparse.level = 1)中: 结果列数不是向量长度的倍数(arg 2) 我之前不熟悉`findInterval()`函数。如果我想按递增间隔检索越来越多的值,例如0:75、0:100、0:125等,是否可以使用相同的方法? - Alex

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接