如何在r语言中处理包含超过500万条观测值的数据框时加快迭代速度？

Question

如何在r语言中处理包含超过500万条观测值的数据框时加快迭代速度？

7

我正试图在数百万个观测值上生成7个或多个变量的值，当我使用for循环实现时，它需要很长时间。以下是我尝试实现的示例。在这种情况下，由于只有几千个观测值，所以速度很快：

# Load dplyr


library(tidyverse)
set.seed(50)

df <- data_frame(SlNo = 1:2000,
                 Scenario = rep(c(1, 2, 3, 4),500),
                 A = round(rnorm(2000, 11, 6)),
                 B = round(rnorm(2000, 15, 4))) %>%
      arrange(Scenario) 

#splitting data-frame to add multiple rows in the data-frame

df<- df %>% split(f = .$Scenario) %>%
  map_dfr(~bind_rows(tibble(Scenario = 0), .x)) 

#observations for certain variables in the newly added rows have specific values

df <- df %>% mutate(C = if_else(Scenario != 0, 0, 4),
                    E = if_else(Scenario != 0, 0, 6))

for(i in 2:nrow(df)) {

df$C[i] <- if_else(df$Scenario[i] != 0, (1-0.5) * df$C[i-1] + 3 + 2 + df$B[i] + df$E[i-1],
              df$C[i])
df$E[i] <- if_else(df$Scenario[i] != 0, df$C[i] + df$B[i] - 50, df$E[i])


}

df

# A tibble: 2,004 x 6
   Scenario  SlNo     A     B     C      E
      <dbl> <int> <dbl> <dbl> <dbl>  <dbl>
 1        0    NA    NA    NA   4     6   
 2        1     1    14    19  32     1   
 3        1     5     1    13  35    -2   
 4        1     9    17    20  40.5  10.5 
 5        1    13     8     7  42.8  -0.25
 6        1    17    10    16  42.1   8.12
 7        1    21     9    12  46.2   8.19
 8        1    25    14    18  54.3  22.3 
 9        1    29    14    15  69.4  34.4 
10        1    33     4    17  91.1  58.1 
# ... with 1,994 more rows

我希望在处理更大的数据框时能够快速获得类似的结果。非常感谢您的帮助。提前致谢！

- Dal

2

你能用语言表达一下你的目标吗？我认为这样会更快地想出解决方案，而不是试图从你的代码中找出答案。另外，你有考虑过使用data.table并用一些更快的方法替换for循环吗？ - NelsonGon

我正在处理的数据框包含数百万行和7个变量，其中我需要迭代计算三个变量的值。在这个例子中有4种情况，代码被编写来计算每种情况下var. C和E的值。每种情况下的第一个C和E观察值被赋予一个特定的值。每个变量的每个后续观察值的值都取决于相同变量的前一个值，即C[i]的值取决于C[i-1]和E[i-1]。用于实现此目的的for循环在应用于具有超过5M个观测值的DF时非常缓慢。 - Dal

1

这看起来只是代数问题，虽然比较复杂。如果你把它写出来，我敢打赌你可以想出一些仅使用 cumsum 和 lag 的东西来解决。 - Jon Spring

如果你也用文字写出了你的公式，那就会更容易些。 - AnilGoyal

2个回答

2

在 tidyverse 中，您可以像这样使用 purrr::accumulate。

library(tidyverse)
set.seed(50)

df <- data.frame(SlNo = 1:2000,
                 Scenario = rep(c(1, 2, 3, 4),500),
                 A = round(rnorm(2000, 11, 6)),
                 B = round(rnorm(2000, 15, 4))) %>%
  arrange(Scenario)

df %>%
  nest(data = B) %>%
  group_by(Scenario) %>%
  mutate(new = accumulate(data, 
                          .init = tibble(C = 4, E = 6),
                          ~ tibble(C = (1 -0.5)* .x$C + 5 + .y$B + .x$E,
                                   E = 0.5 * .x$C + 5 + .x$E + 2 * .y$B - 50
                                   )
                          )[-1]
         ) %>% ungroup %>%
  unnest_wider(data) %>%
  unnest_wider(new)

#> # A tibble: 2,000 x 6
#>     SlNo Scenario     A     B     C     E
#>    <int>    <dbl> <dbl> <dbl> <dbl> <dbl>
#>  1     1        1    14    19  32    1   
#>  2     5        1     1    13  35   -2   
#>  3     9        1    17    20  40.5 10.5 
#>  4    13        1     8     7  42.8 -0.25
#>  5    17        1    10    16  42.1  8.12
#>  6    21        1     9    12  46.2  8.19
#>  7    25        1    14    18  54.3 22.3 
#>  8    29        1    14    15  69.4 34.4 
#>  9    33        1     4    17  91.1 58.1 
#> 10    37        1    13    15 124.  88.7 
#> # ... with 1,990 more rows

^{本文创建于2021年07月05日，使用reprex包（v2.0.0）。}

- AnilGoyal

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Fabio Favoretto · Accepted Answer

如果您不想转换为 data.table 或 dtplyr，因为这可能会很棘手，需要弄清楚如何将 cumsum 和 lag 适应所需的输出，那么您可以将您的循环调整为并行运行。以下是代码示例：

#install.packages("foreach")
#install.packages("doParallel")

# Loading libraries

library(foreach)
library(doParallel)
library(tidyverse)
set.seed(50)

df <- data_frame(SlNo = 1:2000,
                 Scenario = rep(c(1, 2, 3, 4),500),
                 A = round(rnorm(2000, 11, 6)),
                 B = round(rnorm(2000, 15, 4))) %>%
      arrange(Scenario) 

#splitting data-frame to add multiple rows in the data-frame

df<- df %>% split(f = .$Scenario) %>%
  map_dfr(~bind_rows(tibble(Scenario = 0), .x)) 

#observations for certain variables in the newly added rows have specific values

df <- df %>% mutate(C = if_else(Scenario != 0, 0, 4),
                    E = if_else(Scenario != 0, 0, 6))


# Setting up the cores
n.cores <- parallel::detectCores() - 1
my.cluster <- parallel::makeCluster(
        n.cores, 
        type = "PSOCK",
        .packages="dplyr"
)
doParallel::registerDoParallel(cl = my.cluster)

# Run the foreach loop in parallel
foreach(
        i = 2:nrow(df2), 
        .combine = 'rbind'
) %dopar% {
        df$C[i] <- if_else(df$Scenario[i] != 0, (1-0.5) * df$C[i-1] + 3 + 2 + df$B[i] + df$E[i-1],
                           df$C[i])
        df$E[i] <- if_else(df$Scenario[i] != 0, df$C[i] + df$B[i] - 50, df$E[i])
}
df
# stop the cluster
parallel::stopCluster(cl = my.cluster)

这应该会显著加快你的代码速度。但是请注意，并行计算在大型数据集上与串行计算相比，时间执行差异明显，但对于小型数据集，实际上可能需要更多的执行时间。