OpenMP能在GPU上使用吗？

Question

OpenMP能在GPU上使用吗？

multithreadingfortrangpuopenmpopenacc

33

我在网上搜索了很多，但是对这个话题仍然感到非常困惑。有人能更清楚地解释一下吗？我来自航空航天工程背景（不是计算机科学），所以当我在网上阅读关于OpenMP/CUDA等多线程的内容时，我并不真正理解其中的大部分。

我目前正在尝试将用FORTRAN编写的内部CFD软件并行化。以下是我的疑问：

OpenMP使用多个CPU线程共享工作负载。它可以被用来让GPU也参与工作吗？
我看过OpenACC的介绍。它和OpenMP相似吗（易于使用）？

我也看过CUDA和核函数，但我没有太多并行编程经验，也不知道核函数是什么。

是否有一种易于使用且可移植的方式来与GPU分享我的工作负载，适用于FORTRAN（如果OpenMP无法实现这一点，并且OpenACC不可移植）？

你能给我一个“白痴”式的答案吗？

- André Almeida

我建议看一下OpenCL，因为它是在CPU和GPU上执行相同代码的简单方法。内核是可执行代码的基本单位，就像C函数一样，可以是数据并行或任务并行的。也存在Fortran到OpenCL的绑定。可以查看AMD的OpenCL介绍系列：https://www.youtube.com/watch?v=ecYIsu83c0I&list=PL3B46A983A7382FA6 - sled

3

搜索“OpenMP加速器”一词。在OpenMP 4.0中引入了加速器（其中GPU是一种类型）。 - High Performance Mark

随着即将发布的GCC 5编译器，现在已经支持了OpenMP 4.0和OpenACC计算卸载到加速器的基础设施支持。对于那些愿意尝试最新实验代码的人来说，如果你有NVIDIA GPU或支持的Intel Xeon Phi MIC卡，那么你可以开始涉足其中。 - Z boson

4个回答

9

OpenMP 4.0标准包括对加速器（GPU、DSP、Xeon Phi等）的支持，但我不知道是否存在针对GPU的OpenMP 4.0标准实现，只有早期经验。
OpenACC确实类似于OpenMP且易于使用。优秀的OpenACC教程：part 1和part 2。

不幸的是，我认为目前至少没有CPU和GPU的可移植解决方案（除了OpenCL，但与OpenMP和OpenACC相比太低级了）。

如果您需要便携式的解决方案，可以考虑使用Intel Xeon Phi加速器代替GPU。Intel Fortran（和C/C++）编译器包括对CPU和Xeon Phi的OpenMP支持。

此外，要创建真正便携的解决方案，仅使用合适的并行技术是不够的。您必须修改程序以提供足够的并行级别。请参阅“Structured Parallel Programming”或类似书籍，了解可能的方法示例。

- Andrey Sozykin

什么更好？在CPU还是GPU上运行程序的计算密集部分？当然这取决于具体的硬件，但一般来说呢？ - André Almeida

一般来说，最好在GPU（或其他加速器，如Xeon Phi或FPGA）上运行计算密集型部分。现代加速器的性能至少比CPU性能高5倍。 - Andrey Sozykin

5

除了上面提到的其他平台上的支持，IBM正在为两个OpenMP 4.5编译器做出贡献：一个是开源的Clang/LLVM编译器，另一个是IBM的XL编译器。这两个编译器共享相同的辅助OpenMP卸载库，但在GPU的编译器代码生成和优化方面有所不同。对于Fortran语言，从版本15.1.5（对于XL C/C++来说是版本13.1.5）开始，XL Fortran编译器支持大量的OpenMP 4.5卸载到NVIDIA GPU中。今年和明年将添加更多功能，旨在在2018年完全支持。如果您使用POWER，则可以加入XL编译器测试计划，以获得我们最新的Fortran和C/C++的OpenMP卸载功能。

- Rafik Zurob

2

前面的回答已经涵盖了大部分内容，但是由于你提到需要给GPU一些工作，你可能想要看一下异构计算框架（CPU + GPU同时运行）如StarPU。

由于StarPU只适用于C/C++，所以你可以使用ForOpenCL进行Fortran编程。

在任何情况下，你必须考虑性能和便利之间的权衡。

- a3mlord

1

你注意到Fortran标签了吗？ - Vladimir F Героям слава

StarPU 看起来很酷，但如果我没看错的话，它只适用于 C 语言。 - André Almeida

这个回答甚至没有试图回答问题。 - Jeff Hammond

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Jeff Hammond · Accepted Answer

是的。OpenMP 4目标结构设计支持广泛的加速器。支持NVIDIA GPU的编译器包括GCC 7+（参见1和2，后者尚未更新以反映OpenMP 4 GPU支持）、Clang（参见3、4、5）和Cray。Intel GPU的编译器支持可在Intel C/C++编译器中获得（例如，请参见6）。

IBM开发的适用于NVIDIA GPU的OpenMP 4+ Clang/LLVM实现可从https://github.com/clang-ykt获取。构建步骤在"OpenMP compiler for CORAL/OpenPower Heterogeneous Systems"中提供。

Cray编译器支持面向NVIDIA GPU的OpenMP目标。来自Cray Fortran Reference Manual (8.5)：

支持面向NVIDIA GPU或当前CPU目标的OpenMP 4.5目标指令。必须加载适当的加速器目标模块才能使用目标指令。

Intel编译器支持C/C++的Intel Gen图形OpenMP目标，但不支持Fortran。此外，不支持teams和distribute子句，因为它们不是必要的/适当的。以下是一个简单的示例，展示了不同环境中OpenMP目标特性的工作方式。

void vadd2(int n, float * a, float * b, float * c)
{
    #pragma omp target map(to:n,a[0:n],b[0:n]) map(from:c[0:n])
#if defined(__INTEL_COMPILER) && defined(__INTEL_OFFLOAD)
    #pragma omp parallel for simd
#else
    #pragma omp teams distribute parallel for simd
#endif
    for(int i = 0; i < n; i++)
        c[i] = a[i] + b[i];
}

Intel和GCC的编译器选项如下所示。我没有为NVIDIA GPU设置GCC，但您可以查看适当的-foffload选项的documentation。

$ icc -std=c99 -qopenmp -qopenmp-offload=gfx -c vadd2.c && echo "SUCCESS" || echo "FAIL"
SUCCESS
$ gcc-7 -fopenmp -c vadd2.c && echo "SUCCESS" || echo "FAIL"
SUCCESS