这些在我的x86目标文件中看似无用的callq指令是干什么用的?

15

我有一些模板密集的 C++ 代码,想要确保编译器在编译时尽可能地优化,因为它在编译时拥有大量信息。为了评估其性能,我决定查看它生成的目标文件的反汇编代码。下面是我从 objdump -dC 得到的部分片段:

0000000000000000 <bar<foo, 0u>::get(bool)>:
   0:   41 57                   push   %r15
   2:   49 89 f7                mov    %rsi,%r15
   5:   41 56                   push   %r14
   7:   41 55                   push   %r13
   9:   41 54                   push   %r12
   b:   55                      push   %rbp
   c:   53                      push   %rbx
   d:   48 81 ec 68 02 00 00    sub    $0x268,%rsp
  14:   48 89 7c 24 10          mov    %rdi,0x10(%rsp)
  19:   48 89 f7                mov    %rsi,%rdi
  1c:   89 54 24 1c             mov    %edx,0x1c(%rsp)
  20:   e8 00 00 00 00          callq  25 <bar<foo, 0u>::get(bool)+0x25>
  25:   84 c0                   test   %al,%al
  27:   0f 85 eb 00 00 00       jne    118 <bar<foo, 0u>::get(bool)+0x118>
  2d:   48 c7 44 24 08 00 00    movq   $0x0,0x8(%rsp)
  34:   00 00 
  36:   4c 89 ff                mov    %r15,%rdi
  39:   4d 8d b7 30 01 00 00    lea    0x130(%r15),%r14
  40:   e8 00 00 00 00          callq  45 <bar<foo, 0u>::get(bool)+0x45>
  45:   84 c0                   test   %al,%al
  47:   88 44 24 1b             mov    %al,0x1b(%rsp)
  4b:   0f 85 ef 00 00 00       jne    140 <bar<foo, 0u>::get(bool)+0x140>
  51:   80 7c 24 1c 00          cmpb   $0x0,0x1c(%rsp)
  56:   0f 85 24 03 00 00       jne    380 <bar<foo, 0u>::get(bool)+0x380>
  5c:   48 8b 44 24 10          mov    0x10(%rsp),%rax
  61:   c6 00 00                movb   $0x0,(%rax)
  64:   80 7c 24 1b 00          cmpb   $0x0,0x1b(%rsp)
  69:   75 25                   jne    90 <bar<foo, 0u>::get(bool)+0x90>
  6b:   48 8b 74 24 10          mov    0x10(%rsp),%rsi
  70:   4c 89 ff                mov    %r15,%rdi
  73:   e8 00 00 00 00          callq  78 <bar<foo, 0u>::get(bool)+0x78>
  78:   48 8b 44 24 10          mov    0x10(%rsp),%rax
  7d:   48 81 c4 68 02 00 00    add    $0x268,%rsp
  84:   5b                      pop    %rbx
  85:   5d                      pop    %rbp
  86:   41 5c                   pop    %r12
  88:   41 5d                   pop    %r13
  8a:   41 5e                   pop    %r14
  8c:   41 5f                   pop    %r15
  8e:   c3                      retq   
  8f:   90                      nop
  90:   4c 89 f7                mov    %r14,%rdi
  93:   e8 00 00 00 00          callq  98 <bar<foo, 0u>::get(bool)+0x98>
  98:   83 f8 04                cmp    $0x4,%eax
  9b:   74 f3                   je     90 <bar<foo, 0u>::get(bool)+0x90>
  9d:   85 c0                   test   %eax,%eax
  9f:   0f 85 e4 08 00 00       jne    989 <bar<foo, 0u>::get(bool)+0x989>
  a5:   49 83 87 b0 01 00 00    addq   $0x1,0x1b0(%r15)
  ac:   01 
  ad:   49 8d 9f 58 01 00 00    lea    0x158(%r15),%rbx
  b4:   48 89 df                mov    %rbx,%rdi
  b7:   e8 00 00 00 00          callq  bc <bar<foo, 0u>::get(bool)+0xbc>
  bc:   49 8d bf 80 01 00 00    lea    0x180(%r15),%rdi
  c3:   e8 00 00 00 00          callq  c8 <bar<foo, 0u>::get(bool)+0xc8>
  c8:   48 89 df                mov    %rbx,%rdi
  cb:   e8 00 00 00 00          callq  d0 <bar<foo, 0u>::get(bool)+0xd0>
  d0:   4c 89 f7                mov    %r14,%rdi
  d3:   e8 00 00 00 00          callq  d8 <bar<foo, 0u>::get(bool)+0xd8>
  d8:   83 f8 04                cmp    $0x4,%eax

这个特定函数的反汇编继续进行,但我注意到的一件事是相对较多的call指令,如下所示:

20:   e8 00 00 00 00          callq  25 <bar<foo, 0u>::get(bool)+0x25>

这些指令始终带有操作码e8 00 00 00 00,在生成的代码中频繁出现,从我的观察来看,它们无非就是空操作; 它们似乎只不过是通过到下一条指令。这引发了一个问题,那么为什么会生成所有这些指令呢?

我关注生成代码的指令高速缓存占用,因此在函数中多次浪费5个字节似乎是得不偿失的。这对于一个nop来说似乎有些笨重,除非编译器试图保持某种内存对齐方式等等。如果这是情况的话,我并不感到惊讶。

我使用g++4.8.5使用-O3 -fomit-frame-pointer编译了我的代码。值得一提的是,我在使用clang 3.7时也看到类似的代码生成。


@PascalCuoq:谢谢,我猜那可能应该很明显。如果你想转换成回答,对我来说听起来足够好。 - Jason R
好的,已转换并稍作编辑。 - Pascal Cuoq
1个回答

23

e8 00 00 00 00中的相对目标地址00 00 00 00是由链接器填充的。这并不意味着调用会落空,它只是表示您正在反汇编尚未链接的对象文件。

此外,如果在链接阶段后,下一条指令的调用是最终结果,那么它不是一个no-op,因为它会改变堆栈(这是某种提示,说明在您的情况下,这不是发生的事情)。


1
@PascalCuoq:你说得完全正确。当我反汇编目标文件链接到的共享库时,得到了更加清晰的结果。所有的callq都对应于函数内的相对条件跳转。 - Jason R
你可以通过在objdump中传递参数-r来检查重定位。例如:objdump -dCr会给出以下内容: 4: e8 00 00 00 00 callq 9 5: R_X86_64_PLT32 f()-0x4 - lz96
我通常使用 alias disas='objdump -drwC -Mintel' - Peter Cordes

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接