使用MPI发送和接收2D数组

24
我试图解决的问题是:
我有一个计算大型2D矩阵的C++串行代码。为了优化这个过程,我希望使用MPI将这个大的2D矩阵分割成4个节点(例如)来运行。在每个时间步结束时,仅发生节点之间的边缘值共享。每个节点都与其相邻节点共享边缘数组数据A [i] [j]。
根据对MPI的了解,我要实现以下方案。
if (myrank == 0)
{
 for (i= 0 to x)
 for (y= 0 to y)
 {
  C++ CODE IMPLEMENTATION 
  .... 
  MPI_SEND(A[x][0], A[x][1], A[x][2], Destination= 1.....)
  MPI_RECEIVE(B[0][0], B[0][1]......Sender = 1.....)
  MPI_BARRIER
}

if (myrank == 1)
{
for (i = x+1 to xx)
for (y = 0 to y)
{
 C++ CODE IMPLEMENTATION
 ....
 MPI_SEND(B[x][0], B[x][1], B[x][2], Destination= 0.....)
 MPI_RECEIVE(A[0][0], A[0][1]......Sender = 1.....)
 MPI BARRIER
}

我想知道我的做法是否正确,也希望得到关于其他MPI函数实现的指导。

谢谢, Ashwin。

3个回答

44

仅仅是对Joel的观点进行一些补充:

如果你分配的数组是连续的(这是C语言的“多维数组”自动不给你的东西),那么这个过程就容易得多了:

int **alloc_2d_int(int rows, int cols) {
    int *data = (int *)malloc(rows*cols*sizeof(int));
    int **array= (int **)malloc(rows*sizeof(int*));
    for (int i=0; i<rows; i++)
        array[i] = &(data[cols*i]);

    return array;
}

/*...*/
int **A;
/*...*/
A = alloc_2d_init(N,M);

之后,您可以使用以下方式发送和接收整个NxM数组:

MPI_Send(&(A[0][0]), N*M, MPI_INT, destination, tag, MPI_COMM_WORLD);

完成后,使用以下代码释放内存:

free(A[0]);
free(A);

另外,MPI_Recv 是一个阻塞接收函数,而 MPI_Send 可以是一个阻塞发送函数。根据 Joel 的观点,这意味着你绝对不需要屏障。此外,这也意味着如果你有一个如上所述的发送/接收模式,你可能会陷入死锁状态——所有人都在发送,没有人在接收。更安全的方式是:

if (myrank == 0) {
   MPI_Send(&(A[0][0]), N*M, MPI_INT, 1, tagA, MPI_COMM_WORLD);
   MPI_Recv(&(B[0][0]), N*M, MPI_INT, 1, tagB, MPI_COMM_WORLD, &status);
} else if (myrank == 1) {
   MPI_Recv(&(A[0][0]), N*M, MPI_INT, 0, tagA, MPI_COMM_WORLD, &status);
   MPI_Send(&(B[0][0]), N*M, MPI_INT, 0, tagB, MPI_COMM_WORLD);
}

另一种更通用的方法是使用MPI_Sendrecv

int *sendptr, *recvptr;
int neigh = MPI_PROC_NULL;

if (myrank == 0) {
   sendptr = &(A[0][0]);
   recvptr = &(B[0][0]);
   neigh = 1;
} else {
   sendptr = &(B[0][0]);
   recvptr = &(A[0][0]);
   neigh = 0;
}
MPI_Sendrecv(sendptr, N*M, MPI_INT, neigh, tagA, recvptr, N*M, MPI_INT, neigh, tagB, MPI_COMM_WORLD, &status);

或非阻塞发送和/或接收。


毫无疑问地使用连续的多维数组,这确实是正确的方法。此外,在Sendrecv上加1。 - Joel Falcou
1
没有两种选择 - 你需要同时使用上述的分配例程来确保你的数组在内存中是连续的,然后对整个结构使用Send和Receive,可能需要像上面那样翻转顺序。 - Jonathan Dursi
我正在查看这段代码以解决内存泄漏问题。我有一个问题,为什么你不在这里谈论显式释放内存呢?是否存在显式与隐式的情况,或者可能只是取决于某人的代码呢? - Ashmohan
2
C的多维数组是一块连续的内存;如果你分配了double d[50][50];,那就是一块连续的内存。处理动态分配的“伪二维”数组的一种方法是分配一块指针和一个单独的(通常是不连续的)内存块集,每行一个。请参见使用malloc时,C如何为2D(3D...)数组分配空间?中的讨论。 - Jonathan Leffler

4

首先,您不需要那么多屏障。 其次,您应该将数据作为单个块发送,因为多次发送/接收会影响性能。


1
你的数据应该在一个连续的内存块中。然后只需一次性MPI_send整个块即可。 - Joel Falcou

0
这个问题已经被Jonathan Dursi非常彻底地回答了;然而,正如Jonathan Leffler在他对Jonathan Dursi的回答中指出的那样,C语言的多维数组是一个连续的内存块。因此,我想指出的是,对于一个不太大的二维数组,可以简单地在堆栈上创建一个二维数组:
int A[N][M];

由于内存是连续的,数组可以直接发送:

MPI_Send(A, N*M, MPI_INT,1, tagA, MPI_COMM_WORLD);

在接收端,数组可以被接收到一个大小为N*M的一维数组中(如果需要,可以将其复制到二维数组中):
int A_1d[N*M];
MPI_Recv(A_1d, N*M, MPI_INT,0,tagA, MPI_COMM_WORLD,&status);

//copying the array to a 2d-array
int A_2d[N][M];
for (int i = 0; i < N; i++){
    for (int j = 0; j < M; j++){
        A_2d[i][j] = A_1d[(i*M)+j]
    }    
}

复制数组确实会使用两倍的内存,因此最好通过访问A_1d[(i*M)+j]来直接使用其元素,而不是复制它。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接