我想执行一个分块矩阵乘法(将矩阵分成多个sxs矩阵并相应地乘以各个块)。我已经按照Hennesy架构书中的示例代码编写了以下代码:
在这里,s=N,size=n/s。
for(int jj=0;jj<=(n/s);jj += s){
for(int kk=1;kk<=(n/s);kk += s){
for(int i=1;i<=(n/s);i++){
for(int j = jj; j<=((jj+s-1)>(n/s)?(n/s):(jj+s-1)); j++){
temp = 0;
for(int k = kk; k<=((kk+s-1)>(n/s)?(n/s):(kk+s-1)); k++){
temp += b[i][k]*a[k][j];
}
c[j][i] += temp;
}
}
}
}
在这里,nxn是原始矩阵的大小。a、b矩阵的大小相同。我将a、b矩阵分成大小为sxs的块。在我的程序中,我将块大小设置为4。我将a、b的所有元素都设置为5,一个常量,n=1000。然而,我的结果值不正确。我在过去的两个小时里一直卡在这里。如果可能的话,请你帮我看看。书中的参考代码如下:
for (jj = 0; jj <= size; jj += N) {
for (kk = 1; kk <= size; kk += N) {
for (i = 1; i <= size; i++) {
for (j = jj; j <= findMin(jj+N-1, size); j++) {
temp = 0;
for (k = kk; k <= findMin(kk+N-1, size); k++) {
temp += B[i][k] * A[j][k];
}
C[j][i] += temp;
}
}
}
}
在这里,s=N,size=n/s。