假设我们有很多线程将按顺序访问全局内存,哪个选项在整体上执行更快?我怀疑是因为__threadfence()考虑了所有共享和全局内存写入,但写入是合并的。另一方面,atomicExch()只考虑重要的内存地址,但我不知道写入是否被合并。
代码如下:
谢谢。
代码如下:
array[threadIdx.x] = value;
或者
atomicExch(&array[threadIdx.x] , value);
谢谢。