存储未命中影响性能吗？

Question

存储未命中影响性能吗？

cachingmemory-managementcpu-architecturecpu-cache

3

我们知道，脏数据不会立即写回到RAM中，而是先存储在存储缓冲区中，稍后再根据时间的允许将其写回到RAM中。此外，如果在值被刷新到缓存/内存之前，在同一核心的相同位置进行后续LOAD操作，则可以使用存储转发技术，从存储缓冲区“转发”该值，并获取刚刚存储的值。这可以与缓存访问并行执行，因此不会影响速度。

我的问题是 - 在存储缓冲区和存储转发的帮助下，存储缺失不一定需要处理器（对应核心）停顿。因此，存储缺失不会对总缓存缺失延迟产生贡献，对吗？

谢谢。

- dalglish

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Peter Cordes · Accepted Answer

DRAM延迟非常高，因此当缓存未命中时，存储缓冲区很容易填满并阻止新的存储指令分配到后端。存储缓冲区将执行与缓存未命中的隔离/分离能力受其有限大小的限制。尽管如此，它总是有所帮助。你是对的，相对于缓存未命中的延迟，存储更容易隐藏。

在像x86 TSO这样具有强序内存模型的情况下，停顿和填充存储缓冲区更成为问题：存储只能按程序顺序从存储缓冲区提交到L1d缓存，因此任何缓存未命中的存储都会阻塞存储缓冲区的进度，直到RFO（所有权读取）完成。提前启动RFO（在存储达到存储缓冲区的提交末端之前，例如在退役时）可以通过在数据到达之前使RFO飞行来隐藏一些延迟。

存储缓冲区和行填充缓冲区如何相互作用？

连续存储到相同的高速缓存行中可以合并为一个缓冲区，让它们在数据从RAM（或拥有权的另一个内核）到达时一次性提交。有证据表明，在不违反内存排序规则的有限情况下，Intel CPU实际上会这样做。

请参阅退役后为什么RFO不会破坏内存排序？以获取@BeeOnRope对此提交到Skylake上的LFBs的实验测试链接。