Visual Studio 2012不同模式（Release/Debug）下的值不同

Question

Visual Studio 2012不同模式（Release/Debug）下的值不同

c++visual-c++visual-studio-2012visual-studio-2013compiler-bug

33

当在Debug和Release模式之间切换时，这段代码在MSVS 2012、Windows 7中会产生不同的值：

#include <iostream>
using namespace std;

int A[20000];

int main() {

    int shift = 0;
    int Period = 30;
    //Fill array
    for(int i = 0; i < 20000; i++) {
        A[i] = i * 2 + 123;
    }

    int sumTotal = 0;
    int sum = 0;

    for(int bars = Period + 10; bars < 1000; bars++) {
        sum = 0;
        for(int i = 0; i< Period; i++) {
            sum += A[bars - i];
        }
        sumTotal += sum;
    }
    cout << sumTotal << endl;
}

你能否重现或找到原因？我已经在项目属性上测试了各种设置。

调试模式(正确结果): 32630400
发布模式: 32814720

/GS /GL /analyze- /W3 /Gy /Zc:wchar_t /I"C:\Program Files (x86)\Visual Leak Detector\include" /Z7 /Gm- /O2 /Fd"Release\vc110.pdb" /fp:precise /D "WIN32" /D "NDEBUG" /D "_CONSOLE" /D "_UNICODE" /D "UNICODE" /errorReport:prompt /WX- /Zc:forScope /Gd /Oy- /Oi /MD /Fa"Release\" /EHsc /nologo /Fo"Release\" /Fp"Release\Testing.pch"

- user3023605

3

你得到了哪些不同的数值？它们中是否有正确答案？同时，请告诉我们你使用的编译器选项。 - wolfPack88

4

SO规则要求您将问题缩小到最小的规模。例如，+123 真的必要吗？请注意不要改变原意并尽量让译文易于理解。 - MSalters

2

如果我禁用优化，发布版本将会给出与调试版本相同的（根据您的说法）正确答案。此外，优化后的发布版本的反汇编结果很奇怪——我真的无法理解它试图做什么（虽然我在这方面不是专家）。我暂时得出结论，您已经发现了一个编译器错误。如果是这样，恭喜您。 - dlf

1

试着简化代码，看看是否仍能复现问题。首先将数组清零是否有所不同？听起来像是一个错误，但代码中并没有什么很复杂的东西，为什么它在其他程序中没有出现过呢？ - user146043

2

我能够提供的最简单的程序来演示这个错误：https://gist.github.com/bcrist/53035b973fb0e6f8ed52 将循环条件更改为 i <= 10 或更低，就可以消除它了（可能在这种情况下循环被展开了）。 - bcrist

显示剩余17条评论

4个回答

15

我相信您已经在优化器中发现了一个错误。您可以通过禁用优化或在最内层的for循环中添加具有无法被优化的副作用的额外代码（例如，cout << "hi"）来使发布版本生成与调试版本相同（正确）的输出（这可能会防止执行其他不正确的优化）。我建议向Microsoft报告此问题。

更新：Microsoft确认这是与自动向量化相关的错误，并且已在VS2013更新2中修复。在其他版本中的解决方法是在循环前缀上使用#pragma loop(no_vector)以禁用向量化。

此外，他们描述了两种触发错误的不同循环结构。我将引用他们的话：

错误出现的两种情况：

1）如用户burzvingion所提到的，矢量化的循环形式：

for (int i=0; ...) { sum = A[...] - sum; }

2）矢量化的循环形式：

for (int i=0; ...) { sum = sum + A[ - i]; }

他们还提供了以下建议以查找易受攻击的代码：

如果您正在查看源代码以尝试找到这些情况，请先使用throw / Qvec-report：1查找所有已矢量化的循环，然后从那里开始。要解决错误，请在for循环上方放置#pragma loop（no_vector）。

- dlf

我已经向微软提交了一个 Bug 报告。如果他们回复的话，我会更新这个答案。 - dlf

2

https://connect.microsoft.com/VisualStudio/feedback/details/893189/likely-bug-in-vc-2012-2013-optimizer - bcrist

5

可以将导致优化错误的代码简化为以下内容：

#include <iostream>
using namespace std;

#define SIZE 12

int main()
{
    int A[SIZE] = {0};

    int sum = 0;
    for (int i=0; i<SIZE; i++)
        sum += A[SIZE-1-i];
    cout << sum << endl;

    return 0;
}

可以通过以下任意一种方式来消除优化错误:

将SIZE的定义更改为小于12的值
将表达式A[SIZE-1-i]更改为A[SIZE-i-1]
将操作cout << sum << endl移动到循环内部

因此，为了诊断问题，我们只需应用这些更改之一，然后比较更改前和更改后的代码的反汇编结果。

- barak manos

#1 的解释可能只是优化器在迭代次数少于12次时展开了循环。不过我对 #2 感到好奇... - dlf

1

@dlf：我其实已经自己检查了这些差异，结果发现#1和#2非常相似。在第一个变化中，我没有注意到有展开循环，但如果有的话，那么很可能也发生在第二个变化中（因此，很可能两个变化都没有展开循环）。 - barak manos

4

我对两种情况的汇编代码进行了比较（在VC++ 2013 express中），在发布版本中，for循环的发布版本的汇编代码如下，与调试版本非常不同。

$LL6@main:

; 23   :        sum = 0;
; 24   :        for (int i = 0; i< Period; i++){

    xorps   xmm5, xmm5
    lea eax, DWORD PTR [edi+88]
    xorps   xmm4, xmm4
    mov ecx, 3
    npad    2
$LL3@main:

; 25   :            //cout << "hi";
; 26   :            sum += A[bars - i];

    movd    xmm2, DWORD PTR [eax-4]
    lea eax, DWORD PTR [eax-32]
    movd    xmm0, DWORD PTR [eax+32]
    movd    xmm1, DWORD PTR [eax+36]
    movd    xmm3, DWORD PTR [eax+40]
    punpckldq xmm3, xmm0
    movd    xmm0, DWORD PTR [eax+48]
    punpckldq xmm1, xmm2
    movd    xmm2, DWORD PTR [eax+44]
    punpckldq xmm3, xmm1
    movd    xmm1, DWORD PTR [eax+52]
    paddd   xmm5, xmm3
    movd    xmm3, DWORD PTR [eax+56]
    punpckldq xmm3, xmm0
    punpckldq xmm1, xmm2
    punpckldq xmm3, xmm1
    paddd   xmm4, xmm3
    dec ecx
    jne SHORT $LL3@main

; 23   :        sum = 0;
; 24   :        for (int i = 0; i< Period; i++){

    paddd   xmm4, xmm5
    xor edx, edx
    movdqa  xmm0, xmm4
    mov eax, edi
    psrldq  xmm0, 8
    mov esi, 3
    paddd   xmm4, xmm0
    movdqa  xmm0, xmm4
    psrldq  xmm0, 4
    paddd   xmm4, xmm0
    movd    ebx, xmm4
    npad    7
$LL30@main:

; 25   :            //cout << "hi";
; 26   :            sum += A[bars - i];

    add ecx, DWORD PTR [eax]
    lea eax, DWORD PTR [eax-8]
    add edx, DWORD PTR [eax+4]
    dec esi
    jne SHORT $LL30@main

; 27   :    

}

根据汇编代码，这里使用了SSE指令。因此我查看了VC++中有关SSE指令的编译器选项，然后在发布版本中指定了/arch:IA32来禁用针对x86处理器的SSE和SSE2指令生成，然后得到了与调试版本相同的结果。

我不熟悉SSE，希望有人可以根据我的发现进行更详细的解释。

- Matt

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- AnT stands with Russia · Accepted Answer

我使用VS2012 C编译器测试了代码的“精简”版本。

int main()
{
  int A[12] = { 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1 };

  int sum = 0;
  int i;

  for (i = 0; i < 12; ++i)
     sum += A[11 - i];

  printf("%d\n", sum);

  return 0;
}

我在 x64 模式下以 Release 配置编译它，并进行了速度优化。尽管如此，这个 bug 仍然存在，但取决于其他的优化和代码生成设置，它会以不同的方式表现出来。其中一个版本的代码产生了“随机”的结果，而另一个版本则始终将8作为总和（而不是正确的12）。

对于那个一直产生8的版本，生成的代码就像这样：

000000013FC81DF0  mov         rax,rsp  
000000013FC81DF3  sub         rsp,68h  
000000013FC81DF7  movd        xmm1,dword ptr [rax-18h]  
000000013FC81DFC  movd        xmm2,dword ptr [rax-10h]  
000000013FC81E01  movd        xmm5,dword ptr [rax-0Ch]  
000000013FC81E06  xorps       xmm0,xmm0  
000000013FC81E09  xorps       xmm3,xmm3  

for (i = 0; i < 12; ++i)
000000013FC81E0C  xor         ecx,ecx  
000000013FC81E0E  mov         dword ptr [rax-48h],1  
000000013FC81E15  mov         dword ptr [rax-44h],1  
000000013FC81E1C  mov         dword ptr [rax-40h],1  
000000013FC81E23  punpckldq   xmm2,xmm1  
000000013FC81E27  mov         dword ptr [rax-3Ch],1  
000000013FC81E2E  mov         dword ptr [rax-38h],1  
000000013FC81E35  mov         dword ptr [rax-34h],1  
{
     sum += A[11 - i];
000000013FC81E3C  movdqa      xmm4,xmmword ptr [__xmm@00000001000000010000000100000001 (013FC83360h)]  
000000013FC81E44  paddd       xmm4,xmm0  
000000013FC81E48  movd        xmm0,dword ptr [rax-14h]  
000000013FC81E4D  mov         dword ptr [rax-30h],1  
000000013FC81E54  mov         dword ptr [rax-2Ch],1  
000000013FC81E5B  mov         dword ptr [rax-28h],1  
000000013FC81E62  mov         dword ptr [rax-24h],1  
000000013FC81E69  punpckldq   xmm5,xmm0  
000000013FC81E6D  punpckldq   xmm5,xmm2  
000000013FC81E71  paddd       xmm5,xmm3  
000000013FC81E75  paddd       xmm5,xmm4  
000000013FC81E79  mov         dword ptr [rax-20h],1  
000000013FC81E80  mov         dword ptr [rax-1Ch],1  
000000013FC81E87  mov         r8d,ecx  
000000013FC81E8A  movdqa      xmm0,xmm5  
000000013FC81E8E  psrldq      xmm0,8  
000000013FC81E93  paddd       xmm5,xmm0  
000000013FC81E97  movdqa      xmm0,xmm5  
000000013FC81E9B  lea         rax,[rax-40h]  
000000013FC81E9F  mov         r9d,2  
000000013FC81EA5  psrldq      xmm0,4  
000000013FC81EAA  paddd       xmm5,xmm0  
000000013FC81EAE  movd        edx,xmm5  
000000013FC81EB2  nop         word ptr [rax+rax]  
{
     sum += A[11 - i];
000000013FC81EC0  add         ecx,dword ptr [rax+4]  
000000013FC81EC3  add         r8d,dword ptr [rax]  
000000013FC81EC6  lea         rax,[rax-8]  
000000013FC81ECA  dec         r9  
000000013FC81ECD  jne         main+0D0h (013FC81EC0h)  
}

printf("%d\n", sum);
000000013FC81ECF  lea         eax,[r8+rcx]  
000000013FC81ED3  lea         rcx,[__security_cookie_complement+8h (013FC84040h)]  
000000013FC81EDA  add         edx,eax  
000000013FC81EDC  call        qword ptr [__imp_printf (013FC83140h)]  

return 0;
000000013FC81EE2  xor         eax,eax  
}
000000013FC81EE4  add         rsp,68h  
000000013FC81EE8  ret

代码生成器和优化器留下了许多奇怪且看似不必要的术语，但这段代码的作用可以简单地描述如下。

该程序使用两种独立的算法来产生最终的总和，这两种算法显然应该处理数组的不同部分。我猜测两个处理流程（非 SSE 和 SSE）被用于通过指令流水线提高并行性。

其中一个算法是一个简单的循环，它对数组元素求和，每次迭代处理两个元素。它可以从上述“交错”的代码中提取如下:

; Initialization
000000013F1E1E0C  xor         ecx,ecx                 ; ecx - odd element sum
000000013F1E1E87  mov         r8d,ecx                 ; r8 - even element sum
000000013F1E1E9B  lea         rax,[rax-40h]           ; start from i = 2
000000013F1E1E9F  mov         r9d,2                   ; do 2 iterations

; The cycle
000000013F1E1EC0  add         ecx,dword ptr [rax+4]   ; ecx += A[i + 1]
000000013F1E1EC3  add         r8d,dword ptr [rax]     ; r8d += A[i]
000000013F1E1EC6  lea         rax,[rax-8]             ; i -= 2
000000013F1E1ECA  dec         r9                      
000000013F1E1ECD  jne         main+0D0h (013F1E1EC0h) ; loop again if r9 is not zero

这个算法从地址 rax - 40h 开始添加元素，在我的实验中它等于 &A[2]，向后跳过两个元素进行两次迭代。这样可以在寄存器 r8 中累加 A[0] 和 A[2] 的和以及在寄存器 ecx 中累加 A[1] 和 A[3] 的和。因此，该算法的这一部分处理数组的4个元素，并正确生成值 2 在 r8 和 ecx 中。

该算法的另一部分使用SSE指令编写，显然负责将数组的剩余部分相加。可以从代码中提取如下：

; Initially xmm5 is zero
000000013F1E1E3C  movdqa      xmm4,xmmword ptr [__xmm@00000001000000010000000100000001 (013F1E3360h)]  
000000013F1E1E75  paddd       xmm5,xmm4  

000000013F1E1E8A  movdqa      xmm0,xmm5               ; copy
000000013F1E1E8E  psrldq      xmm0,8                  ; shift
000000013F1E1E93  paddd       xmm5,xmm0               ; and add

000000013F1E1E8A  movdqa      xmm0,xmm5               ; copy
000000013F1E1E8E  psrldq      xmm0,4                  ; shift
000000013F1E1E93  paddd       xmm5,xmm0               ; and add

000000013F1E1EAE  movd        edx,xmm5                ; edx - the sum

该部分使用的通用算法很简单：它将值 0x00000001000000010000000100000001 放入 128 位寄存器 xmm5，然后向右移动 8 字节（0x00000000000000000000000100000001），并将其添加到原始值中，生成 0x00000001000000010000000200000002。这再次向右移动 4 个字节（0x00000000000000010000000100000002）并再次添加到前一个值中，生成 0x00000001000000020000000300000004。寄存器 xmm5 的最后 32 位字 0x00000004 被视为结果，并放置在寄存器 edx 中。因此，该算法将 4 作为其最终结果。很明显，该算法仅对 128 位寄存器中连续的 32 位字执行“并行”加法。顺便说一下，该算法甚至不尝试访问 A，它从编译器/优化器产生的嵌入式常量开始求和。

现在，最终报告 r8 + ecx + edx 的值作为最终总和。显然，这仅为 8，而不是正确的 12。看起来其中一个算法忘记做了一些工作。我不知道是哪个，但从“冗余”指令的丰富程度来判断，似乎应该是 SSE 算法应该在 edx 中生成 8 而不是 4。有一个可疑的指令是这个：

000000013FC81E71  paddd       xmm5,xmm3

那时，xmm3 始终包含零。因此，这条指令看起来完全是多余的和不必要的。但是如果 xmm3 实际上包含另一个代表数组中另外4个元素的“魔法”常量（就像 xmm4 一样），那么该算法将正常工作并产生适当的总和。

如果为数组元素使用不同的初始值

int A[12] = { 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12 };

可以清楚地看到，第一个（非SSE）算法成功地对1、2、3、4进行了求和，而第二个（SSE）算法对9、10、11、12进行了求和。5、6、7、8未被考虑在内，导致最终的总和是 52，而不是正确的 78。

这明显是编译器/优化器的bug。

附言：相同设置的同一项目导入VS2013更新2后似乎没有出现此bug。