使用prange进行Numba并行化，当使用更多线程时速度会变慢。

Question

使用prange进行Numba并行化，当使用更多线程时速度会变慢。

6

我尝试使用numba和prange并行化循环的简单代码。但是出现了一个问题，当我使用更多线程时，速度反而变慢。为什么会发生这种情况？（CPU Ryzen 7 2700x, 8个核心，16个线程，3.7GHz）

from numba import njit, prange,set_num_threads,get_num_threads
@njit(parallel=True,fastmath=True)
def test1():
    x=np.empty((10,10))
    for i in prange(10):
        for j in range(10):
            x[i,j]=i+j

Number of threads : 1
897 ns ± 18.3 ns per loop (mean ± std. dev. of 10 runs, 100000 loops each)
Number of threads : 2
1.68 µs ± 262 ns per loop (mean ± std. dev. of 10 runs, 100000 loops each)
Number of threads : 3
2.4 µs ± 163 ns per loop (mean ± std. dev. of 10 runs, 100000 loops each)
Number of threads : 4
4.12 µs ± 294 ns per loop (mean ± std. dev. of 10 runs, 100000 loops each)
Number of threads : 5
4.62 µs ± 283 ns per loop (mean ± std. dev. of 10 runs, 100000 loops each)
Number of threads : 6
5.01 µs ± 145 ns per loop (mean ± std. dev. of 10 runs, 100000 loops each)
Number of threads : 7
5.52 µs ± 194 ns per loop (mean ± std. dev. of 10 runs, 100000 loops each)
Number of threads : 8
4.85 µs ± 140 ns per loop (mean ± std. dev. of 10 runs, 100000 loops each)
Number of threads : 9
6.47 µs ± 348 ns per loop (mean ± std. dev. of 10 runs, 100000 loops each)
Number of threads : 10
6.88 µs ± 120 ns per loop (mean ± std. dev. of 10 runs, 100000 loops each)
Number of threads : 11
7.1 µs ± 154 ns per loop (mean ± std. dev. of 10 runs, 100000 loops each)
Number of threads : 12
7.47 µs ± 159 ns per loop (mean ± std. dev. of 10 runs, 100000 loops each)
Number of threads : 13
7.91 µs ± 160 ns per loop (mean ± std. dev. of 10 runs, 100000 loops each)
Number of threads : 14
9.04 µs ± 472 ns per loop (mean ± std. dev. of 10 runs, 100000 loops each)
Number of threads : 15
9.74 µs ± 581 ns per loop (mean ± std. dev. of 10 runs, 100000 loops each)
Number of threads : 16
11 µs ± 967 ns per loop (mean ± std. dev. of 10 runs, 100000 loops each)

- ABZANMASTER

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Jérôme Richard · Accepted Answer

这是非常正常的。Numba需要创建线程并在它们之间分配工作，以便可以并行执行计算。Numba可以使用不同的线程后端。默认情况下通常是OpenMP，并且默认的OpenMP实现应该是IOMP（ICC / Clang的OpenMP运行时），它尝试"仅创建线程一次"。但是，将工作在线程之间共享比迭代100个值要慢得多。现代主流处理器应该能够在小于0.1-0.2微秒的时间内顺序执行这两个嵌套循环。 Numba还应该能够展开这两个循环。 Numba函数的开销通常约为几百纳秒。与实际循环相比，Numpy数组的分配速度应该要慢得多。此外，即使以前的开销可以忽略不计，还有其他开销会导致这段代码在多个线程上明显变慢。例如，“虚假共享”会导致写操作大多被串行化，因此比如果在1个唯一线程上完成它们要慢（因为在x86-64平台上LLC上的缓存行弹跳效应）。请注意，创建线程的时间通常显着超过1微秒，因为需要系统调用。

简而言之：当要处理的工作足够大且可以有效地并行化时，请使用线程。