当查看NVIDIA Fermi架构中性能计数器的名称时(在cuda的doc文件夹中的Compute_profiler.txt文件中),我注意到对于L2缓存未命中,有两个性能计数器,l2_subp0_read_sector_misses和l2_subp1_read_sector_misses。他们说这是为了两个L2片段。为什么它们有两个L2片段?这与流多处理器架构有关吗?这种分割对性能有什么影响?谢谢
CUDA C编程指南描述了多处理器的架构。该文档指出,每个Fermi多处理器有两个warp调度程序。我认为L2缓存被分割以允许并发缓存。我还没有查看Kepler架构的L2读取未命中情况,但是Kepler多处理器有四个warp处理器。因此,如果Kepler编译报告了四个性能计数器,则可以验证这种假设。