VM/解释器的性能提升策略是什么？

Question

VM/解释器的性能提升策略是什么？

c++cperformanceinterpretervm-implementation

3

我用C语言编写了一个简单的虚拟机，使用了一组简单的指令开关，没有任何指令解码，但性能非常差。

对于简单的算术操作，该虚拟机的性能比相同操作的本地C代码慢约4000倍。我使用了长度为1000万的一组数组进行测试，第一个数组包含程序指令、随机+ - * / 操作，另外两个数组保存随机整数，第三个数组是操作目标存储。

我本来期望看到算术性能下降3-4倍，所以这个“4000倍”真的让我吃惊不小。即使是最慢的解释语言似乎也提供了更高的性能。那么我的方法出了什么问题，如何在不使用JIT编译成机器代码的情况下提高性能呢？

实现方式...基本上是我能想到的最简单的：

begin:
    {
        switch (*(op+(c++)))
        {
        case 0:
            add(in1+c, in2+c, out+c); goto begin;

        case 1:
            sub(in1+c, in2+c, out+c); goto begin;

        case 2:
            mul(in1+c, in2+c, out+c); goto begin;

        case 3:
            div(in1+c, in2+c, out+c); goto begin;

        case 4:
            cout << "end of program" << endl;
            goto end;

        default:
            cout << "ERROR!!!" << endl;

        }
    }

end:

更新：当我试图调整程序长度时，我发现我用于分析的QElapsedTimer实际上是有问题的。现在我正在使用来自clock()函数的计时器，并且根据它的结果，计算跳转实际上与本地代码运行相当，甚至略低。这个结果是否可靠？下面是完整的源代码（我知道它很丑，毕竟只是为了测试）：

#include <QtGlobal>
#include <iostream>
#include <stdio.h>
#include <ctime>

using namespace std;

#define LENGTH 70000000

void add(int & a, int & b, int & r) {r = a * b;}
void sub(int & a, int & b, int & r) {r = a - b;}
void mul(int & a, int & b, int & r) {r = a * b;}
void div(int & a, int & b, int & r) {r = a / b;}

int main()
{
    char * op = new char[LENGTH];
    int * in1 = new int[LENGTH];
    int * in2 = new int[LENGTH];
    int * out = new int[LENGTH];

    for (int i = 0; i < LENGTH; ++i)
    {
        *(op+i) = i % 4;
        *(in1+i) = qrand();
        *(in2+i) = qrand()+1;
    }

    *(op+LENGTH-1) = 4; // end of program


    long long  sClock, fClock;


    unsigned int c = 0;
    sClock = clock();

    cout << "Program begins" << endl;

    static void* table[] = {
        &&do_add,
        &&do_sub,
        &&do_mul,
        &&do_div,
        &&do_end,
        &&do_err,
        &&do_fin};

#define jump() goto *table[op[c++]]

    jump();
do_add:
    add(in1[c], in2[c], out[c]); jump();
do_sub:
    sub(in1[c], in2[c], out[c]); jump();
do_mul:
    mul(in1[c], in2[c], out[c]); jump();
do_div:
    div(in1[c], in2[c], out[c]); jump();
do_end:
    cout << "end of program" << endl; goto *table[6];
do_err:
    cout << "ERROR!!!" << endl; goto *table[6];
do_fin:

    fClock = clock();
    cout << fClock - sClock << endl;

    delete [] op;
    delete [] in1;
    delete [] in2;
    delete [] out;

    in1 = new int[LENGTH];
    in2 = new int[LENGTH];
    out = new int[LENGTH];

    for (int i = 0; i < LENGTH; ++i)
    {
        *(in1+i) = qrand();
        *(in2+i) = qrand()+1;
    }

    cout << "Native begins" << endl;

    sClock = clock();

    for (int i = 0; i < LENGTH; i += 4)
    {

        *(out+i) = *(in1+i) + *(in2+i);
        *(out+i+1) = *(in1+i+1) - *(in2+i+1);
        *(out+i+2) = *(in1+i+2) * *(in2+i+2);
        *(out+i+3) = *(in1+i+3) / *(in2+i+3);
    }

    fClock = clock();
    cout << fClock - sClock << endl;

    delete [] in1;
    delete [] in2;
    delete [] out;

    return 0;
}

- dtech

你需要移除那个你放在代码里进行调试的 Sleep(1)。 ;) 说真的，你有没有在每次迭代中调用任何系统函数？ - avakar

@avakar - 没有任何东西被调用，整个程序循环只包含一个调用适当函数并增加指令指针的switch语句。调试版本甚至更慢，性能下降约9000倍。虽然它仍然非常快，这1000万次操作所需的时间只占动态分配内存所需时间的一小部分，但我仍然希望有更高的性能，这似乎是可能的。 - dtech

2

http://eli.thegreenplace.net/2012/07/12/computed-goto-for-efficient-dispatch-tables/ - BoBTFish

这种方法听起来很合理，所以问题可能在于你遗漏的细节。 - molbdnilo

添加了所谓的“实现” - 第一次没有添加它，因为实际上没有什么可添加的。@BoBTFish - 我会在有时间时尝试实现计算跳转，看看它是否有帮助。 - dtech

显示剩余3条评论

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- tbleher · Accepted Answer

Darek Mihocka在创建便携式C语言快速解释器方面有一篇很好而深入的文章：http://www.emulators.com/docs/nx25_nostradamus.htm