在[R]中使用mclapply、foreach或其他什么东西来并行操作一个对象？

Question

在[R]中使用mclapply、foreach或其他什么东西来并行操作一个对象？

3

有没有一种方法可以并行操作R中的对象？我知道parallel中的mclapply会分叉进程并将工作区内容复制到每个进程中。我希望我的核心能够在对象上执行独立的作业，而无需拆分和组合结果。一个用例是将数据框中的所有numeric列更改为并行的factor列。另一个用例是对具有大量级别的数据框中的因子进行分箱。我尝试这样做的主要原因是1）避免耗尽内存和2）提高速度。

下面，对象b是拆分数据框a中的列然后在应用factor之后将它们组合起来的结果。相反，我想直接操作对象a。串行地，我能够通过foreach...%do%循环的副作用将a中的列转换为factor类型。在并行中，我无法将a的列转换为factor类型作为副作用，因为（据我所知），在foreach...%dopar%内部，a指的是每个生成的进程本地的对象。

在R中是否有一个包可以让我做到这一点？

a <- data.frame(b=c(1,1,2,2), c=c(2,2,3,3))
str(a)

> str(a)
'data.frame':   4 obs. of  2 variables:
 $ b: num  1 1 2 2
 $ c: num  2 2 3 3

#serial
b <-
  foreach (i = iter(1:ncol(a)), .combine = data.frame) %do% {
    a[,i] <- factor(a[,i])
  }
str(a)
str(b)

> str(a)
'data.frame':   4 obs. of  2 variables:
 $ b: Factor w/ 2 levels "1","2": 1 1 2 2
 $ c: Factor w/ 2 levels "2","3": 1 1 2 2
> str(b)
'data.frame':   4 obs. of  2 variables:
 $ result.1: Factor w/ 2 levels "1","2": 1 1 2 2
 $ result.2: Factor w/ 2 levels "2","3": 1 1 2 2

#parallel
a <- data.frame(b=c(1,1,2,2), c=c(2,2,3,3))
b <-
  foreach (i = iter(1:ncol(a)), .combine = data.frame) %dopar% {
    a[,i] <- factor(a[,i])
  }
str(a)
str(b)

> str(a)
'data.frame':   4 obs. of  2 variables:
 $ b: num  1 1 2 2
 $ c: num  2 2 3 3
> str(b)
'data.frame':   4 obs. of  2 variables:
 $ result.1: Factor w/ 2 levels "1","2": 1 1 2 2
 $ result.2: Factor w/ 2 levels "2","3": 1 1 2 2

- lockedoff

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Joris Meys · Accepted Answer

首先，您需要知道 R（一般情况下）是按值调用的，因此无论您做什么，您总是会得到数据框的临时副本。这也适用于 apply 系列函数的普通版本。一旦您在函数内部更改了某些内容，对象就会首先被复制。

话虽如此，mclapply 不会将完整的工作区内容复制到子进程中。据我所知，进程共享相同的内存内容，并且只有在对其进行修改时才会复制内容。这基本上与 R 所做的相同。

如果您仍然不信任此方法，可以使用集群方法并尝试 parallel 包中的 parLapply 和相关函数。这不是基于分叉，而是基于节点集群。您可以将您的核心视为节点。在这种情况下，您必须使用 clusterExport() 显式地导出计算所需的工作区变量。我不确定这一点，但我怀疑这确实创建了一个副本。对于其他部分，parLapply 只会将它处理的元素复制到不同的集群中。因此，这与 lapply 的默认行为相当类似。

在使用数据框 a 时，您可以执行以下操作：

> require(parallel)
> cl <- makeCluster(2)
> b <- parLapply(cl,a,as.factor)
> str(as.data.frame(b))
'data.frame':   4 obs. of  2 variables:
 $ b: Factor w/ 2 levels "1","2": 1 1 2 2
 $ c: Factor w/ 2 levels "2","3": 1 1 2 2
> stopCluster(cl)