假设我们有一些向量。
对于
有一些朴素的方法,例如执行以下任意一个操作
如果
编辑:
澄清一下,我想知道是否有更高效的方法来做到这一点,即在这种情况下能否做得比二次时间更好。
向量化总是很酷的,谢谢 @Henrik!
运行时间
a <- c(1, 2, 2, 4, 7)
b <- c(1, 2, 3, 5, 7)
对于
b
中的每个元素 b[i]
,我想找到 a
中小于 b[i]
的元素数量,或者等价地说,我想知道 c(b[i], a)
中的 b_i
的排名。有一些朴素的方法,例如执行以下任意一个操作
length(b)
次:min_rank(c(b[i], a))
sum(a < b[i])
如果
length(a)
= length(b)
= N,其中 N 很大,那么最佳的方法是什么?编辑:
澄清一下,我想知道是否有更高效的方法来做到这一点,即在这种情况下能否做得比二次时间更好。
向量化总是很酷的,谢谢 @Henrik!
运行时间
a <- rpois(100000, 20)
b <- rpois(100000, 10)
system.time(
result1 <- sapply(b, function(x) sum(a < x))
)
# user system elapsed
# 71.15 0.00 71.16
sw <- proc.time()
bu <- sort(unique(b))
ab <- sort(c(a, bu))
ind <- match(bu, ab)
nbelow <- ind - 1:length(bu)
result2 <- sapply(b, function(x) nbelow[match(x, bu)])
proc.time() - sw
# user system elapsed
# 0.46 0.00 0.48
sw <- proc.time()
a1 <- sort(a)
result3 <- findInterval(b - sqrt(.Machine$double.eps), a1)
proc.time() - sw
# user system elapsed
# 0.00 0.00 0.03
identical(result1, result2) && identical(result2, result3)
# [1] TRUE