x86 CPU上围栏内存存储的优化

Question

x86 CPU上围栏内存存储的优化

6

mov 0x0ff, 10
sfence 
mov 0x0ff, 12
sfence

它能在x86-CPU上执行吗：

 mov 0x0ff, 12
 sfence

?

- Gilgamesz

1

两个 sfence 指令是多余的（相关：Does SFENCE prevent the Store Buffer hiding changes from MESI?）。但即使没有它们，我认为另一个线程有时也可能观察到 10。不过，在存储器队列提交到 L1D 之前，存在一些合并的证据，尽管我找不到关于此的 SO 答案或评论。 - Peter Cordes

1

发现了这个问题：Intel Skylake上存储循环的性能异常差且双峰奇怪，有证据表明，相邻的存储到同一缓存行的操作会在存储缓冲区中合并，并作为一个更新提交。如果这种情况发生在对同一位置的存储操作上，则10可能永远不会提交到L1d。我不知道sfence是否可以防止这种情况，我认为在理论上它不必这样做，但它可能会阻止实际CPU上的合并。 - Peter Cordes

2

@PeterCordes sfence会清空存储缓冲区（根据英特尔的说法），因此它应该可以防止合并。它对于排序来说是多余的，但我认为对于可见性来说不是这样。 - Margaret Bloom

2

@eugene - sfence不是一个无操作指令，因为它会对非暂时性存储器进行栅栏操作，这些存储器在彼此之间或常规存储器之间通常没有顺序。 - BeeOnRope

1

@margaret - 我也阅读了英特尔文档，其中列出了 sfence 作为排空存储缓冲区，但我觉得很难相信（至少在同步排空存储缓冲区之前），因为它似乎意味着 sfence; lfence 将等同于 mfence，但英特尔明确表示它不是，并且执行速度更快，因此从实际角度来看，我认为它不是等效的。我觉得这种语言是早期留下的，不能依赖它，尽管我承认我对此不太清楚。 - BeeOnRope

显示剩余6条评论

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- BeeOnRope · Accepted Answer

是的，有些CPU可以按照您的建议执行。

即使您在其中加入了更强的围栏，例如mfence或使用锁定指令，也不能保证第一次写入不会被优化掉。

总的来说，这是真实的：排序和围栏规则基本上告诉您哪些执行是不允许的，因此保证永远不会出现，但是考虑到允许发生的补充执行集合，则通常没有保证任何特定的执行可能实际上被观察到。

尽管如此，在当前的x86芯片上，我非常确定您始终能够观察到偶尔出现的10值（即使完全省略了围栏），因为您可以偶尔在两个存储之间获得中断，从而允许您读取10。

然而，这并不是保证-人们当然可以想象像Denver或Transmeta这样的动态优化x86架构可以压缩上述序列，删除两个围栏和第一个存储，使20成为唯一可观察的值。