为什么使用Boost库后C++比Python更快?

7

我的目标是在Python中编写一个用于频谱有限元的小型库,为此我尝试使用Boost将C++库扩展到Python中,希望能使我的代码更快。

class Quad {
    public:
        Quad(int, int);
        double integrate(boost::function<double(std::vector<double> const&)> const&);
        double integrate_wrapper(boost::python::object const&);
        std::vector< std::vector<double> > nodes;
        std::vector<double> weights;
};

...

namespace std {
    typedef std::vector< std::vector< std::vector<double> > > cube;
    typedef std::vector< std::vector<double> > mat;
    typedef std::vector<double> vec;
}

...

double Quad::integrate(boost::function<double(vec const&)> const& func) {

    double result = 0.;
    for (unsigned int i = 0; i < nodes.size(); ++i) {
        result += func(nodes[i]) * weights[i];
    }
    return result;
}

// ---- PYTHON WRAPPER ----
double Quad::integrate_wrapper(boost::python::object const& func) {
    std::function<double(vec const&)> lambda;
    switch (this->nodes[0].size()) {
        case 1: lambda = [&func](vec const& v) -> double { return boost::python::extract<double>(func (v[0])); }; break;
        case 2: lambda = [&func](vec const& v) -> double { return boost::python::extract<double>(func(v[0], v[1])); }; break;
        case 3: lambda = [&func](vec const& v) -> double { return boost::python::extract<double>(func(v[0], v[1], v[2])); }; break;
        default: cout << "Dimension must be 1, 2, or 3" << endl; exit(0);
    }
    return integrate(lambda);
}

// ---- EXPOSE TO PYTHON ----
BOOST_PYTHON_MODULE(hermite)
{
    using namespace boost::python;

    class_<std::vec>("double_vector")
        .def(vector_indexing_suite<std::vec>())
        ;

    class_<std::mat>("double_mat")
        .def(vector_indexing_suite<std::mat>())
        ;

    class_<Quad>("Quad", init<int,int>())
        .def("integrate", &Quad::integrate_wrapper)
        .def_readonly("nodes", &Quad::nodes)
        .def_readonly("weights", &Quad::weights)
        ;
}

我比较了三种不同的方法来计算两个函数的积分。这两个函数是:
  • 函数f1(x,y,z) = x*x
  • 更难评估的函数:f2(x,y,z) = np.cos(2*x+2*y+2*z) + x*y + np.exp(-z*z) +np.cos(2*x+2*y+2*z) + x*y + np.exp(-z*z) +np.cos(2*x+2*y+2*z) + x*y + np.exp(-z*z) +np.cos(2*x+2*y+2*z) + x*y + np.exp(-z*z) +np.cos(2*x+2*y+2*z) + x*y + np.exp(-z*z)
所使用的方法为:
  1. Call the library from a C++ program:

    double func(vector<double> v) {
        return F1_OR_F2;
    }
    
    int main() {
        hermite::Quad quadrature(100, 3);
        double result = quadrature.integrate(func);
        cout << "Result = " << result << endl;
    }
    
  2. Call the library from a Python script:

    import hermite
    def function(x, y, z): return F1_OR_F2
    my_quad = hermite.Quad(100, 3)
    result = my_quad.integrate(function)
    
  3. Use a for loop in Python:

    import hermite
    def function(x, y, z): return F1_OR_F2
    my_quad = hermite.Quad(100, 3)
    weights = my_quad.weights
    nodes = my_quad.nodes
    result = 0.
    for i in range(len(weights)):
        result += weights[i] * function(nodes[i][0], nodes[i][1], nodes[i][2])
    
以下是每种方法的执行时间(使用time命令测量方法1的时间,使用python模块time测量方法2和方法3的时间,C++代码使用Cmake编译,并且使用set (CMAKE_BUILD_TYPE Release)):
对于f1: - 方法1:0.07s用户 0.01s系统 99%CPU 0.083总计 - 方法2:0.19秒 - 方法3:3.06秒
对于f2: - 方法1:0.28s用户 0.01s系统 99%CPU 0.289总计 - 方法2:12.47秒 - 方法3:16.31秒
根据这些结果,我的问题如下: 1. 为什么第一种方法比第二种方法快那么多? 2. 可以改进Python包装器以达到方法1和方法2之间可比较的性能吗? 3. 为什么方法2对于函数积分难度更加敏感而不是方法3?
编辑:我还尝试定义一个接受字符串作为参数的函数,将其写入文件,然后编译该文件并动态加载生成的.so文件。
double Quad::integrate_from_string(string const& function_body) {

    // Write function to file
    ofstream helper_file;
    helper_file.open("/tmp/helper_function.cpp");
    helper_file << "#include <vector>\n#include <cmath>\n";
    helper_file << "extern \"C\" double toIntegrate(std::vector<double> v) {\n";
    helper_file << "    return " << function_body << ";\n}";
    helper_file.close();

    // Compile file
    system("c++ /tmp/helper_function.cpp -o /tmp/helper_function.so -shared -fPIC");

    // Load function dynamically
    typedef double (*vec_func)(vec);
    void *function_so = dlopen("/tmp/helper_function.so", RTLD_NOW);
    vec_func func = (vec_func) dlsym(function_so, "toIntegrate");
    double result = integrate(func);
    dlclose(function_so);
    return result;
}

这段代码比较混乱,可能不太易于移植,但是它功能强大,并且与sympyccode函数兼容。


第二次编辑:我已经用Numpy纯Python重写了这个函数。

import numpy as np
import numpy.polynomial.hermite_e as herm
import time
def integrate(function, degrees):
    dim = len(degrees)
    nodes_multidim = []
    weights_multidim = []
    for i in range(dim):
        nodes_1d, weights_1d = herm.hermegauss(degrees[i])
        nodes_multidim.append(nodes_1d)
        weights_multidim.append(weights_1d)
    grid_nodes = np.meshgrid(*nodes_multidim)
    grid_weights = np.meshgrid(*weights_multidim)
    nodes_flattened = []
    weights_flattened = []
    for i in range(dim):
        nodes_flattened.append(grid_nodes[i].flatten())
        weights_flattened.append(grid_weights[i].flatten())
    nodes = np.vstack(nodes_flattened)
    weights = np.prod(np.vstack(weights_flattened), axis=0)
    return np.dot(function(nodes), weights)

def function(v): return F1_OR_F2
result = integrate(function, [100,100,100])
print("-> Result = " + str(result) + ", Time = " + str(end-start))

有点出乎意料(至少对我来说),这种方法与纯C++实现的性能没有显著差异。特别地,f1需要0.059秒,f2需要0.36秒。


4
C++ 是一种编译型语言,Python 是一种解释型语言。 - Jesper Juhl
@Ev.Kounis 你说得对,我只是复制粘贴了5次同样的内容来说明我的观点。 - Rastapopoulos
你在 Quad::integrate 中的计算过于简单,而且 func 被频繁调用。Python 版本大部分时间都花费在从 Python 解释器切换到 C++ 代码上。 - llllllllll
@FrançoisAndrieux 我没有指定任何标志(我使用CMake进行编译,并没有设置CMAKE_BUILD_TYPE)。我尝试将构建类型更改为“release”,时间缩短了,但比率相似。 - Rastapopoulos
我已经使用 set (CMAKE_BUILD_TYPE Release) 重新运行了代码,并更新了时间。 - Rastapopoulos
显示剩余12条评论
2个回答

5

您的函数通过值传递向量,这涉及复制向量。 integrate_wrapper 还会进行额外的复制。

接受 boost::function 的引用并在这些 lambda 中捕获 func 的引用也是有意义的。

将它们改为以下形式(请注意 &const& 部分):

double integrate(boost::function<double(std::vector<double> const&)> const&);

double Quad::integrate_wrapper(boost::python::object func) {
    std::function<double(vec const&)> lambda;
    switch (this->nodes[0].size()) {
        case 1: lambda = [&func](vec const& v) -> double { return boost::python::extract<double>(func (v[0])); }; break;
        case 2: lambda = [&func](vec const& v) -> double { return boost::python::extract<double>(func(v[0], v[1])); }; break;
        case 3: lambda = [&func](vec const& v) -> double { return boost::python::extract<double>(func(v[0], v[1], v[2])); }; break;
        default: cout << "Dimension must be 1, 2, or 3" << endl; exit(0);
    }
    return integrate(lambda);
}

然而,从C++调用Python函数比调用C++函数更加耗费资源。


人们通常使用numpy在Python中进行快速的线性代数计算,它会为许多常见操作使用SIMD。在开发C++实现之前,您应该优先考虑使用numpy。在C++中,您需要使用Intel MKL或Eigen进行向量化处理。


谢谢您的回答。我现在会尝试并汇报结果。 - Rastapopoulos
所以我尝试使用const&通过引用传递向量,但并没有改变太多。我将更新问题和时间... - Rastapopoulos
@Rastapopoulos 在答案中添加了更多的更改。 - Maxim Egorushkin
谢谢!我也试过了,但几乎没有改变什么(这次没有更新时间,因为它们几乎完全相同)。但你是对的,从C++反复调用Python函数可能是导致速度变慢的原因。 - Rastapopoulos
@Rastapopoulos,你没有修改lambda表达式的参数。我为你重复一遍:[&func](vec const& v)。不要复制 boost::functions,只需执行 integrate(lambda)。你代码中的那个复制甚至更糟糕,因为由于有值向量参数,它最终会复制向量。只需使用我为你修改的 Quad::integrate_wrapper 函数即可。 - Maxim Egorushkin
2
@Rastapopoulos 将 return integrate(boost::function<double(vec)>(lambda)); 更改为 return integrate(lambda);。这里会发生向量复制。 - Maxim Egorushkin

3

另一种方法

以稍微不那么普遍的方式,您的问题可以更容易地解决。您可以使用纯Python代码编写集成和函数,然后使用numba进行编译。

第一种方法(每次运行0.025秒(I7-4771)后的集成)

第一次调用时,函数将被编译,这大约需要0.5秒钟。

function_2:

@nb.njit(fastmath=True)
def function_to_integrate(x,y,z):
return np.cos(2*x+2*y+2*z) + x*y + np.exp(-z*z) +np.cos(2*x+2*y+2*z) + x*y + np.exp(-z*z) +np.cos(2*x+2*y+2*z) + x*y + np.exp(-z*z) +np.cos(2*x+2*y+2*z) + x*y + np.exp(-z*z) +np.cos(2*x+2*y+2*z) + x*y + np.exp(-z*z)

集成

@nb.jit(fastmath=True)
def integrate3(num_int_Points):
  nodes_1d, weights_1d = herm.hermegauss(num_int_Points)

  result=0.

  for i in range(num_int_Points):
    for j in range(num_int_Points):
      result+=np.sum(function_to_integrate(nodes_1d[i],nodes_1d[j],nodes_1d[:])*weights_1d[i]*weights_1d[j]*weights_1d[:])

  return result

测试

import numpy as np
import numpy.polynomial.hermite_e as herm
import numba as nb
import time

t1=time.time()
nodes_1d, weights_1d = herm.hermegauss(num_int_Points)

for i in range(100):
  #result = integrate3(nodes_1d,weights_1d,100)
  result = integrate3(100) 

print(time.time()-t1)
print(result)

第二种方法

这个函数也可以并行运行,当对许多元素进行积分时,高斯点和权重只需计算一次。这将导致运行时间约为0.005秒

@nb.njit(fastmath=True,parallel=True)
def integrate3(nodes_1d,weights_1d,num_int_Points):

  result=0.

  for i in nb.prange(num_int_Points):
    for j in range(num_int_Points):
      result+=np.sum(function_to_integrate(nodes_1d[i],nodes_1d[j],nodes_1d[:])*weights_1d[i]*weights_1d[j]*weights_1d[:])

  return result

传递任意函数
(说明:此处的“任意函数”指的是可以自定义的函数,不限于特定类型或格式)
import numpy as np
import numpy.polynomial.hermite_e as herm
import numba as nb
import time

def f(x,y,z):
  return np.cos(2*x+2*y+2*z) + x*y + np.exp(-z*z) +np.cos(2*x+2*y+2*z) + x*y + np.exp(-z*z) +np.cos(2*x+2*y+2*z) + x*y + np.exp(-z*z) +np.cos(2*x+2*y+2*z) + x*y + np.exp(-z*z) +np.cos(2*x+2*y+2*z) + x*y + np.exp(-z*z)

def make_integrate3(f):
  f_jit=nb.njit(f,fastmath=True)
  @nb.njit(fastmath=True,parallel=True)
  def integrate_3(nodes_1d,weights_1d,num_int_Points):
      result=0.
      for i in nb.prange(num_int_Points):
        for j in range(num_int_Points):
          result+=np.sum(f_jit(nodes_1d[i],nodes_1d[j],nodes_1d[:])*weights_1d[i]*weights_1d[j]*weights_1d[:])

      return result

  return integrate_3


int_fun=make_integrate3(f)
num_int_Points=100
nodes_1d, weights_1d = herm.hermegauss(num_int_Points)
#Calling it the first time (takes about 1s)
result = int_fun(nodes_1d,weights_1d,100)

t1=time.time()
for i in range(100):
  result = int_fun(nodes_1d,weights_1d,100)

print(time.time()-t1)
print(result)

使用带有Intel SVML的Numba 0.38,第一次调用大约需要0.002秒


这种方法看起来非常不错!如果将要集成的函数作为参数传递给 integrate3,它会起作用吗? - Rastapopoulos
我从未这样做过,但也许这会有所帮助。http://numba.pydata.org/numba-doc/dev/user/faq.html 请注意,大部分性能来自于在集成函数中内联函数,这是由jit编译器完成的。 - max9111
然而,它真的非常快,基本上比我的C++代码快一个数量级... - Rastapopoulos
实际上,这个问题在常见问题解答中已经有了回答:http://numba.pydata.org/numba-doc/dev/user/faq.html - Rastapopoulos
谢谢!对于没有太多装饰器经验的人来说,这真的很有帮助! :) - Rastapopoulos
显示剩余3条评论

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接