为什么分支预测比没有分支更快？

Question

为什么分支预测比没有分支更快？

8

我自己写了一个分支预测实验：

public class BranchPrediction {
    public static void main(final String[] args) {
        long start;
        long sum = 0;

        /* No branch */
        start = System.nanoTime();
        sum = 0;
        for (long i = 0; i < 10000000000L; ++i)
            sum += i;
        System.out.println(System.nanoTime() - start);
        System.out.println(sum);

        /* With branch */
        start = System.nanoTime();
        sum = 0;
        for (long i = 0; i < 10000000000L; ++i)
            if (i >= 0)
                sum += i;
        System.out.println(System.nanoTime() - start);
        System.out.println(sum);

        /* No branch (again) */
        start = System.nanoTime();
        sum = 0;
        for (long i = 0; i < 10000000000L; ++i)
            sum += i;
        System.out.println(System.nanoTime() - start);
        System.out.println(sum);

        /* With branch (again) */
        start = System.nanoTime();
        sum = 0;
        for (long i = 0; i < 10000000000L; ++i)
            if (i >= 0)
                sum += i;
        System.out.println(System.nanoTime() - start);
        System.out.println(sum);
    }
}

结果让我感到困惑：根据程序输出，带有分支的循环比无分支循环更加可靠地快速执行。

示例输出：

7949691477
-5340232226128654848
6947699555
-5340232226128654848
7920972795
-5340232226128654848
7055459799
-5340232226128654848

为什么会这样呢？

编辑：

反编译的类显示Java编译器没有优化（错过）任何内容 (https://gist.github.com/HouzuoGuo/5692424)
为什么处理排序后的数组比未排序的数组更快？的作者使用的Java基准测试技术与我的相同。
该机器是运行Linux 3.2 64位和Oracle JVM 1.7 64位的Intel Core i7。
当我增加循环迭代次数时，带分支的循环比非分支循环运行速度快数秒。

- user972946

3

你确定你没有看到编译器/JIT优化的影响吗？ - Oliver Charlesworth

8

必需的：如何在Java中编写正确的微基准测试？ - Mark Peters

3

你必须了解，Java和C++的工作方式不同。首先，阅读@MarkPeters发布的链接，然后重新进行基准测试。 - Luiggi Mendoza

6

尝试在每个测试之间打印sum变量。目前情况下，JIT 可以合法地将所有内容优化掉。 - Mysticial

2

也许HotSpot生成的代码会提供一些启示。 - Marcelo Cantos

显示剩余15条评论

2个回答

2

请注意，JVM会在内部进行优化执行，并且您的计算机内部有缓存可以使计算更快。由于您拥有如此强大的处理器（许多独立核心），这并不奇怪。还要注意，在Java代码下方运行的代码将映射到计算机的机器代码。只需尽可能优化代码，让JVM自行解决即可。

编辑：机器和硬件喜欢大负载，它们以更高效的方式运行。特别是缓存。

- Dejan

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- user972946 · Accepted Answer

在我的其他机器上运行相同的实验(英特尔服务器和工作站)，我可以得出结论，我所经历的现象是特定于这台笔记本电脑CPU(英特尔i7 Q740M)的。

==== 6个月后的编辑 ====

看看这个：http://eli.thegreenplace.net/2013/12/03/intel-i7-loop-performance-anomaly/