NVIDIA Fermi中的L2缓存

5
当查看NVIDIA Fermi架构中性能计数器的名称时(在cuda的doc文件夹中的Compute_profiler.txt文件中),我注意到对于L2缓存未命中,有两个性能计数器,l2_subp0_read_sector_misses和l2_subp1_read_sector_misses。他们说这是为了两个L2片段。
为什么它们有两个L2片段?这与流多处理器架构有关吗?这种分割对性能有什么影响?
谢谢
2个回答

1

我认为流处理器与此没有直接关系。

我只是认为切片相当于银行内存。

将两个值相加即可得到“总”L2读取缺失次数。


1
CUDA C编程指南描述了多处理器的架构。该文档指出,每个Fermi多处理器有两个warp调度程序。我认为L2缓存被分割以允许并发缓存。
我还没有查看Kepler架构的L2读取未命中情况,但是Kepler多处理器有四个warp处理器。因此,如果Kepler编译报告了四个性能计数器,则可以验证这种假设。

我喜欢这个想法。如果得到确认,我会继续寻找。 - Zk1001

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接