我想优化OpenCL内核中的本地内存访问模式。我在某个地方读到了关于可配置本地内存的内容。例如,我们应该能够配置使用多少本地内存和自动缓存。
此外,我在这里阅读到可以为最新(Kepler)Nvidia硬件选择银行大小:http://www.acceleware.com/blog/maximizing-shared-memory-bandwidth-nvidia-kepler-gpus。对于存储在本地内存中的双精度值,这一点似乎非常关键。
Nvidia是否提供设置本地内存专门用于CUDA用户的功能?我找不到类似OpenCL的方法。所以这可能被称为不同的方式或者确实不存在吗?