NVIDIA Fermi中的L2缓存

Question

NVIDIA Fermi中的L2缓存

5

当查看NVIDIA Fermi架构中性能计数器的名称时（在cuda的doc文件夹中的Compute_profiler.txt文件中），我注意到对于L2缓存未命中，有两个性能计数器，l2_subp0_read_sector_misses和l2_subp1_read_sector_misses。他们说这是为了两个L2片段。

为什么它们有两个L2片段？这与流多处理器架构有关吗？这种分割对性能有什么影响？

谢谢

- Zk1001

2个回答

1

CUDA C编程指南描述了多处理器的架构。该文档指出，每个Fermi多处理器有两个warp调度程序。我认为L2缓存被分割以允许并发缓存。

我还没有查看Kepler架构的L2读取未命中情况，但是Kepler多处理器有四个warp处理器。因此，如果Kepler编译报告了四个性能计数器，则可以验证这种假设。

- Thomas Ryan Stovall

我喜欢这个想法。如果得到确认，我会继续寻找。 - Zk1001

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- fabrizioM · Accepted Answer

我认为流处理器与此没有直接关系。

我只是认为切片相当于银行内存。

将两个值相加即可得到“总”L2读取缺失次数。