C++17并行算法已经实现了吗?

45
我尝试使用C++17标准中提出的新并行库特性,但我无法使其工作。我尝试使用最新版本的g++ 8.1.1clang++-6.0以及-std=c++17进行编译,但是似乎都不支持#include <execution>std::execution::par或类似的东西。
当查看用于并行算法的cppreference时,有一个很长的算法列表,声称:
Technical specification provides parallelized versions of the following 69 algorithms from algorithm, numeric and memory: ( ... long list ...)
听起来这些算法“在纸面上”已经准备好了,但是还不能使用?
这个SO问题中,超过一年前的答案声称还没有实现这些功能。但到目前为止,我希望能看到某种实现。我们已经可以使用一些东西吗?

2
似乎MSVC是唯一支持这些特性的主流编译器,参见此处 - lubgr
我也在寻找g++的这些功能,但似乎还没有计划实现。 - Romain Laneuville
6个回答

48

GCC 9已经拥有它们,但您需要单独安装TBB

在Ubuntu 19.10中,所有组件终于对齐了:

  • GCC 9 是默认的, 并且是TBB所需的最低版本
  • TBB(Intel线程构建块)为2019〜U8-1,因此符合最低2018要求

所以您可以简单地执行:

sudo apt install gcc libtbb-dev
g++ -ggdb3 -O3 -std=c++17 -Wall -Wextra -pedantic -o main.out main.cpp -ltbb
./main.out

并将其用作:

#include <execution>
#include <algorithm>

std::sort(std::execution::par_unseq, input.begin(), input.end());

另外可以查看下面的完整可运行基准测试。

GCC 9和TBB 2018是第一个按照发行说明工作的版本: https://gcc.gnu.org/gcc-9/changes.html

并行算法和 <execution> (需要Thread Building Blocks 2018或更新版本)。

相关主题:

Ubuntu 18.04安装

Ubuntu 18.04有点复杂:

以下是Ubuntu 18.04的完全自动化测试命令:

# Install GCC 9
sudo add-apt-repository ppa:ubuntu-toolchain-r/test
sudo apt-get update
sudo apt-get install gcc-9 g++-9

# Compile libtbb from source.
sudo apt-get build-dep libtbb-dev
git clone https://github.com/intel/tbb
cd tbb
git checkout 2019_U9
make -j `nproc`
TBB="$(pwd)"
TBB_RELEASE="${TBB}/build/linux_intel64_gcc_cc7.4.0_libc2.27_kernel4.15.0_release"

# Use them to compile our test program.
g++-9 -ggdb3 -O3 -std=c++17 -Wall -Wextra -pedantic -I "${TBB}/include" -L 
"${TBB_RELEASE}" -Wl,-rpath,"${TBB_RELEASE}" -o main.out main.cpp -ltbb
./main.out

测试程序分析

我使用了这个程序来比较并测试并行排序和串行排序的速度。

main.cpp

#include <algorithm>
#include <cassert>
#include <chrono>
#include <execution>
#include <random>
#include <iostream>
#include <vector>

int main(int argc, char **argv) {
    using clk = std::chrono::high_resolution_clock;
    decltype(clk::now()) start, end;
    std::vector<unsigned long long> input_parallel, input_serial;
    unsigned int seed;
    unsigned long long n;

    // CLI arguments;
    std::uniform_int_distribution<uint64_t> zero_ull_max(0);
    if (argc > 1) {
        n = std::strtoll(argv[1], NULL, 0);
    } else {
        n = 10;
    }
    if (argc > 2) {
        seed = std::stoi(argv[2]);
    } else {
        seed = std::random_device()();
    }

    std::mt19937 prng(seed);
    for (unsigned long long i = 0; i < n; ++i) {
        input_parallel.push_back(zero_ull_max(prng));
    }
    input_serial = input_parallel;

    // Sort and time parallel.
    start = clk::now();
    std::sort(std::execution::par_unseq, input_parallel.begin(), input_parallel.end());
    end = clk::now();
    std::cout << "parallel " << std::chrono::duration<float>(end - start).count() << " s" << std::endl;

    // Sort and time serial.
    start = clk::now();
    std::sort(std::execution::seq, input_serial.begin(), input_serial.end());
    end = clk::now();
    std::cout << "serial " << std::chrono::duration<float>(end - start).count() << " s" << std::endl;

    assert(input_parallel == input_serial);
}

在Ubuntu 19.10上,使用CPU:Intel Core i7-7820HQ CPU(4核心/8线程,2.90 GHz基频,8 MB缓存),内存:2x Samsung M471A2K43BB1-CRC(2x 16GiB,2400 Mbps)的Lenovo ThinkPad P51笔记本电脑,对于要排序的1亿个数字输入,典型输出如下:
./main.out 100000000

现在是:

parallel 2.00886 s
serial 9.37583 s

因此,并行版本的速度大约快了4.5倍!另请参阅:“CPU bound”和“I/O bound”这些术语是什么意思?

我们可以使用strace确认该进程正在生成线程:

strace -f -s999 -v ./main.out 100000000 |& grep -E 'clone'

这显示了几行类型:

[pid 25774] clone(strace: Process 25788 attached
[pid 25774] <... clone resumed> child_stack=0x7fd8c57f4fb0, flags=CLONE_VM|CLONE_FS|CLONE_FILES|CLONE_SIGHAND|CLONE_THREAD|CLONE_SYSVSEM|CLONE_SETTLS|CLONE_PARENT_SETTID|CLONE_CHILD_CLEARTID, parent_tidptr=0x7fd8c57f59d0, tls=0x7fd8c57f5700, child_tidptr=0x7fd8c57f59d0) = 25788

此外,如果我注释掉串行版本并使用以下代码运行:
time ./main.out 100000000

我得到:

real    0m5.135s
user    0m17.824s
sys     0m0.902s

再次确认算法并行化,因为real < user,并且给出了在我的系统中它可以有效地并行化的想法(对于8个核心约为3.5倍)。

错误信息

嘿,Google,请索引此内容。

如果您没有安装tbb,则会出现以下错误:

In file included from /usr/include/c++/9/pstl/parallel_backend.h:14,
                 from /usr/include/c++/9/pstl/algorithm_impl.h:25,
                 from /usr/include/c++/9/pstl/glue_execution_defs.h:52,
                 from /usr/include/c++/9/execution:32,
                 from parallel_sort.cpp:4:
/usr/include/c++/9/pstl/parallel_backend_tbb.h:19:10: fatal error: tbb/blocked_range.h: No such file or directory
   19 | #include <tbb/blocked_range.h>
      |          ^~~~~~~~~~~~~~~~~~~~~
compilation terminated.

因此我们可以看到,<execution> 依赖于未安装的 TBB 组件。

如果 TBB 版本过旧,例如默认的 Ubuntu 18.04 版本,则会出现以下错误:

#error Intel(R) Threading Building Blocks 2018 is required; older versions are not supported.

2
这里有具体说明:https://gcc.gnu.org/onlinedocs/gcc-9.1.0/libstdc++/manual/manual/status.html#status.iso.2017: 注意3:并行算法对Intel TBB 2018或更高版本有外部依赖。如果包含<execution>头文件,则必须使用-ltbb链接到TBB。似乎并行算法是由Intel的Parallel STL实现的:https://github.com/gcc-mirror/gcc/blob/master/libstdc%2B%2B-v3/include/std/algorithm#L64,它本身需要TBB。 - Daniel Langr
@DanielLangr 谢谢!我主要的问题是(懒得现在去研究):TBB是否在树中,如果是,我需要用任何额外的标志配置GCC构建,否则如何在Ubuntu上安装它。我不知道-ltbb,所以这已经是一个好的开始了 :-) 然后我将对某些内容进行基准测试,并在此处提供图表,这将很有趣! - Ciro Santilli OurBigBook.com
并行STL头文件现在是libstdc++的一部分。它们定义了一个“并行后端”,唯一支持的是TBB。TBB后端头文件需要TBB头文件。然而,我找不到TBB头文件作为libstdc++的一部分。因此,这意味着不仅需要链接TBB库,还需要提供TBB头文件。在线演示支持它:https://wandbox.org/permlink/VSIcdvWCtTRko43Q。 - Daniel Langr
顺便说一句,我更喜欢独立实现并行 STL 算法,而不是使用 TBB 的算法。我经常使用并行排序,并进行了很多实验,总体来说,从 libstdc++ 并行模式(PM)实现的并行快速排序和归并排序优于TBB的实现。不幸的是,PM是基于 OpenMP 构建的,而其由 C++11 线程重新实现则并不容易。 - Daniel Langr
@DanielLangr 谢谢你提供的信息!你一定在那里做一些有趣的事情呵呵;-)我稍后会尝试一下。如果您有任何开源基准测试代码,请分享链接。 - Ciro Santilli OurBigBook.com
顺便说一句,我现在发现在Ubuntu 19.10中一切都正常工作了,并更新了答案 :-) - Ciro Santilli OurBigBook.com

20
你可以参考这里来查看所有C++17特性的实现状态。对于你的情况,只需要搜索“Parallelism TS的标准化”,你会发现目前只有MSVC和Intel C++编译器支持这个特性。

我整理了一个开源仓库,它可以在MSVC、Intel和g++ 9.1编译器上工作,演示了并行排序的使用和性能,以及并行合并排序(https://github.com/DragonSpit/ParallelAlgorithms)。 - DragonSpit

14

5

Gcc目前尚未实现Parallelism TS(可以参考https://gcc.gnu.org/onlinedocs/libstdc++/manual/status.html#status.iso.2017)

但是libstdc++(与gcc一起)具有一些等价的并行算法的实验模式。详见https://gcc.gnu.org/onlinedocs/libstdc++/manual/parallel_mode.html

使其工作:

任何使用并行功能都需要额外的编译器和运行时支持,特别是OpenMP支持。添加此支持并不困难:只需使用编译器标志-fopenmp编译您的应用程序。这将链接libgomp,GNU Offloading and Multi Processing Runtime Library,其存在是强制性的。

代码示例

#include <vector>
#include <parallel/algorithm>

int main()
{
  std::vector<int> v(100);

  // ...

  // Explicitly force a call to parallel sort.
  __gnu_parallel::sort(v.begin(), v.end());
  return 0;
}

3

2023年更新

针对C++17并行算法的编译器和替代库支持:

Linux macOS Windows
GCC 8- 不支持 不支持 不支持
GCC 9+ 需要TBB 需要TBB 需要TBB
Clang (libstdc++) 需要TBB 需要TBB 需要TBB
Clang (libc++) 不支持 不支持 不支持
Apple Clang 不支持
MSVC 15.7+ (2017) 支持
Parallel STL 需要TBB 需要TBB 需要TBB
poolSTL 支持* 支持* 支持*
poolSTL并没有实现所有的算法。但是它作为一个单一的头文件可用,所以它是其他选项的一个简单备选。
MinGW是一个奇怪的编译器。使用std::execution::par的代码可以编译和运行,但性能与顺序执行相同。我还没有找到关于编译器实际支持的参考资料(以及为什么它与GCC表现不同),如果有人了解,请留下评论。

-1

Gcc现在支持执行头,但标准的clang构建不支持,可以从https://apt.llvm.org获取。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接