有很多stackoverflow的帖子询问为什么使用纹理的内核不比使用全局内存访问的内核更快。答案和评论对我来说似乎总是有点深奥。NVIDIA Fermi架构白皮书黑白分明地说明:Fermi架构通过为加载和存储实现单一统一内存请求路径(每个SM多处理器带有一个L1缓存和服务于所有操作(加载、存储和纹理)的统一L2缓存),解决了这一挑战。那么,为什么人们期望在Fermi设备上使用纹理内存会加速呢?因为对于每次内存获取(无论是否绑定到纹理),都会使用相同的L2高速缓存,所以实际上,对于大多数情况,直接访问全局内存应该更快,因为它也通过L1缓存进行缓存,而纹理获取则没有。这也在stackoverflow的一些相关问题中报道过。有人可以证实这一点或告诉我我错过了什么吗?