目前我在R中使用内置函数dist来计算距离矩阵。
dist(featureVector,method="manhattan")
目前这是应用程序的瓶颈,因此想法是并行化这个任务(从概念上讲应该是可能的)。
在谷歌和这个论坛中搜索都没有成功。
有人有什么主意吗?
目前我在R中使用内置函数dist来计算距离矩阵。
dist(featureVector,method="manhattan")
目前这是应用程序的瓶颈,因此想法是并行化这个任务(从概念上讲应该是可能的)。
在谷歌和这个论坛中搜索都没有成功。
有人有什么主意吗?
R软件包amap提供了用于聚类和主成分分析的鲁棒且可并行化的函数。其中,Dist方法提供了您要查找的内容:以并行方式计算并返回距离矩阵。
Dist(x, method = "euclidean", nbproc = 8)
上面的代码使用8个线程计算欧几里得距离。
hcluster()
是否可以使用距离矩阵,或者它是否绝对需要原始数据? - Maxim.KparDist
函数,该函数专门用于并行计算距离矩阵。这个包在Mac OS、Windows和Linux上都可用,并且已经支持了39种不同的距离测量方法(请参见parDist)。对于曼哈顿距离的性能比较(系统规格:Mac OS;Intel Core i7,4个核心@2.5 GHz和超线程启用):library(parallelDist)
library(amap)
library(wordspace)
library(microbenchmark)
set.seed(123)
x <- matrix(rnorm(2000 * 100), nrow = 2000, ncol = 100)
microbenchmark(parDist(x, method = "manhattan"),
Dist(x, method = "manhattan", nbproc = 8),
dist.matrix(x, method = "manhattan"),
times = 10)
Unit: milliseconds
expr min lq mean median uq max neval
parDist(x, method = "manhattan") 210.9478 214.3557 225.5894 221.3705 237.9829 247.0844 10
Dist(x, method = "manhattan", nbproc = 8) 749.9397 755.7351 797.6349 812.6109 824.4075 844.1090 10
dist.matrix(x, method = "manhattan") 256.0831 263.3273 279.0864 275.1882 296.3256 311.3821 10
使用更大的矩阵:
x <- matrix(rnorm(10000 * 100), nrow = 10000, ncol = 100)
microbenchmark(parDist(x, method = "manhattan"),
+ Dist(x, method = "manhattan", nbproc = 8),
+ dist.matrix(x, method = "manhattan"),
+ times = 10)
Unit: seconds
expr min lq mean median uq max neval
parDist(x, method = "manhattan") 6.298234 6.388501 6.737168 6.894203 6.947981 7.221661 10
Dist(x, method = "manhattan", nbproc = 8) 22.722947 24.113681 24.326157 24.477034 24.658145 25.301353 10
dist.matrix(x, method = "manhattan") 7.156861 7.505229 7.544352 7.567980 7.655624 7.800530 10
您可以在 parallelDist
的 vignette 中找到更多的性能比较信息。
dist ()
函数更快,而是需要更长时间。 它可以并行处理,但即使计算时间减少到零,启动函数并将变量导出到群集的时间也可能比仅使用 dist()
更长。library(parallel)
vec.array <- matrix(rnorm(2000 * 100), nrow = 2000, ncol = 100)
TaxiDistFun <- function(one.vec, whole.matrix) {
diff.matrix <- t(t(whole.matrix) - one.vec)
this.row <- apply(diff.matrix, 1, function(x) sum(abs(x)))
return(this.row)
}
cl <- makeCluster(detectCores())
clusterExport(cl, list("vec.array", "TaxiDistFun"))
system.time(dist.array <- parRapply(cl, vec.array,
function(x) TaxiDistFun(x, vec.array)))
stopCluster(cl)
dim(dist.array) <- c(2000, 2000)
我是一个Windows用户,正在寻找一种高效的方法来计算距离矩阵,以便在分层聚类中使用(例如使用“stats”包中的hclust函数)。由于在Windows系统中,Dist函数不能并行运行,因此我必须寻找其他解决方案,然后我发现了Stefan Evert的"wordspace"包,其中包含dist.matrix
函数。
您可以尝试以下代码:
X <- data.frame(replicate(1000,sample(0:1,5000,rep=TRUE)))
system.time(d <- dist(X, method = "manhattan"))
system.time(d2 <- as.dist( dist.matrix(as.matrix(X), method="manhattan") ))
可以看到,使用dist.matrix
计算具有1000个二进制特征和5000个实例的数据框的距离矩阵速度更快。
以下是在我的笔记本电脑(i7-6500U)上的结果:
> system.time(d <- dist(X, method = "manhattan"))
user system elapsed
151.79 0.04 152.59
> system.time(d2 <- as.dist( dist.matrix(as.matrix(X), method="manhattan") ))
user system elapsed
19.19 0.22 19.56
这解决了我的问题。您可以查看我找到它的原始线程: http://r.789695.n4.nabble.com/Efficient-distance-calculation-on-big-matrix-td4633598.html
虽然它不能并行解决问题,但在许多情况下已足够。
Dist
函数(使用10个处理器),来自软件包 stats 的 dist
函数以及调用Fortran函数的软件包 fields 的 rdist
。第一个示例创建了一个400 x 400的距离矩阵。第二个示例创建了一个3103 x 3103的距离矩阵。require(sp)
require(fields)
require(amap)
data(meuse.grid)
meuse.gridA <- meuse.grid[1:400, 1:2]
meuse.gridB <- meuse.grid[, 1:2]
# small distance matrix
a <- Sys.time()
invisible(dist(meuse.gridA, diag = TRUE, upper = TRUE))
Sys.time() - a
Time difference of 0.002138376 secs
a <- Sys.time()
invisible(Dist(meuse.gridA, nbproc = 10, diag = TRUE, upper = TRUE))
Sys.time() - a
Time difference of 0.005409241 secs
a <- Sys.time()
invisible(rdist(meuse.gridA))
Sys.time() - a
Time difference of 0.02312016 secs
# large distance matrix
a <- Sys.time()
invisible(dist(meuse.gridB, diag = TRUE, upper = TRUE))
Sys.time() - a
Time difference of 0.09845328 secs
a <- Sys.time()
invisible(Dist(meuse.gridB, nbproc = 10, diag = TRUE, upper = TRUE))
Sys.time() - a
Time difference of 0.05900002 secs
a <- Sys.time()
invisible(rdist(meuse.gridB))
Sys.time() - a
Time difference of 0.8928168 secs
Dist
相比于dist
计算时间从0.09845328秒降至0.05900002秒。因此,如果您有多个处理器可用,我建议您使用amap包中的Dist
函数。我发现在我的Mac上,Microsoft R Open 3.4.0下的parallelDist比dist快了几个数量级,并且在过程中消耗的虚拟内存要少得多。但是需要注意的是 - 我在R 3.3.3上编译它没有成功。虽然它没有将R版本列为依赖项,但我认为它是必须的。
featureVector
的例子吗? - Arun