x86-64地址计算中的mov指令，例如mov i(r, r, i), r，在端口1上执行还是在p0156上执行？

Question

x86-64地址计算中的mov指令，例如mov i(r, r, i), r，在端口1上执行还是在p0156上执行？

assemblyx86intelcpu-architecture

4

我想问一下需要计算地址的mov指令，即（在at&t语法中）

mov i(r, r, i), reg或mov reg, i(r, reg, i)

是否必须在端口1上执行，因为它们实际上是带有3个操作数+ MOV的LEA，或者它们可以在端口0156上自由执行。

如果它们确实在端口1上执行LEA部分，那么一旦地址计算完成，端口1是否会解除阻塞，还是整个内存加载需要先完成。

在ICL上，似乎p7可以执行索引地址模式？

#include <stdint.h>
#include <stdio.h>
#include <stdlib.h>


#define BENCH_ATTR __attribute__((noinline, noclone, aligned(4096)))


#define TERMS 3

void BENCH_ATTR
test_store_port() {
    const uint32_t N = (1 << 29);

    uint64_t dst, loop_cnt;
    uint64_t src[16] __attribute__((aligned(64)));

    asm volatile(
        "movl %[N], %k[loop_cnt]\n\t"
        ".p2align 5\n\t"
        "1:\n\t"

        "movl %k[loop_cnt], %k[dst]\n\t"
        "andl $15, %k[dst]\n\t"
#if TERMS == 3
        "movl %k[dst], (%[src], %[dst], 4)\n\t"
#else
        "movl %k[dst], (%[src])\n\t"
#endif


        "decl %k[loop_cnt]\n\t"
        "jnz 1b\n\t"
        : [ dst ] "+r"(dst), [ loop_cnt ] "+r"(loop_cnt)
        : [ N ] "i"(N), [ src ] "r"(src), "m"(*((const uint32_t(*)[16])src))
        : "cc");
}

int
main(int argc, char ** argv) {
    test_store_port();
}

#define TERMS 3的结果：

perf stat -e uops_dispatched.port_2_3 -e uops_dispatched.port_7_8 -e uops_issued.any -e cpu-cycles ./bsf_dep

 Performance counter stats for './bsf_dep':

           297,191      uops_dispatched.port_2_3                                    
       537,039,830      uops_dispatched.port_7_8                                    
     2,149,098,661      uops_issued.any                                             
       761,661,276      cpu-cycles                                                  

       0.210463841 seconds time elapsed

       0.210366000 seconds user
       0.000000000 seconds sys

#define TERMS 1的结果：

perf stat -e uops_dispatched.port_2_3 -e uops_dispatched.port_7_8 -e uops_issued.any -e cpu-cycles ./bsf_dep

 Performance counter stats for './bsf_dep':

           291,370      uops_dispatched.port_2_3                                    
       537,040,822      uops_dispatched.port_7_8                                    
     2,148,947,408      uops_issued.any                                             
       761,476,510      cpu-cycles                                                  

       0.202235307 seconds time elapsed

       0.202209000 seconds user
       0.000000000 seconds sys

- Noah

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Peter Cordes · Accepted Answer

所有的CPU都会在加载或存储地址端口上的AGU上进行地址生成，而不是在ALU端口上。只有LEA会使用ALU执行端口进行移位和加法运算。

如果复杂的寻址模式需要端口1，则https://uops.info/和/或https://agner.org/optimize/会在其指令表中说明。但是它们并没有这样做：加载只需要p23，存储只需要p237用于存储地址+ p4用于存储数据。

实际上，对于索引存储来说只有p23；Haswell至Skylake上的简单存储地址AGU（端口7）只能处理reg+constant，这意味着如果在代码中使用索引寻址模式，地址生成可能成为瓶颈，否则每个时钟周期可以支持2次加载和1次存储。

（早期的Sandybridge系列，SnB和IvB，甚至会将索引存储“un-laminate”，所以也存在前端成本。）

"Ice Lake改变了这一点，具有7号和8号端口上的2个专用存储器AGU。存储地址uops不能再借用加载AGU，因此存储器AGU必须具备完整的功能。 https://uops.info/html-tp/ICL/MOV_M32_R32-Measurements.html确认使用索引寻址模式的存储在ICL上以2/clock运行，因此两个存储器AGU都是完整功能的。例如，mov [r14+r13*1+0x4],r8d。（uops.info没有测试比1更大的比例因子，但我假设两个存储AGU是相同的，因此它们都可以处理它。）不幸的是，在调优方面，HSW/SKL仍然很重要，因为英特尔仍在销售基于Skylake的微架构，因此它们将成为桌面软件的重要组成部分多年。"