我正在使用几种技术(NumPy、Weave和Cython)来执行Python性能基准测试。代码在数学上的基本操作是C = AB,其中A、B和C是N x N矩阵(注意:这是矩阵乘积而不是逐元素相乘)。
我编写了5个不同的实现:
1.纯Python(循环遍历2D Python列表) 2.NumPy(2D NumPy数组的点积) 3.Weave inline(C++循环遍历2D数组) 4.Cython(循环遍历2D Python列表+静态类型) 5.Cython-Numpy(循环遍历2D NumPy数组+静态类型)
我的期望是实现2到5比实现1快得多。然而,我的结果表明相反。这些是相对于纯Python实现的归一化加速结果: python_list: 1.00 numpy_array: 330.09 weave_inline: 30.72 cython_list: 2.80 cython_array: 0.14
我对NumPy的性能非常满意,但对Weave的性能不太热衷,而Cython的性能让我哭泣。我的整个代码分为两个文件。一切都是自动化的,您只需运行第一个文件即可查看所有结果。请问有人可以帮助我指出我可以做些什么以获得更好的结果吗?
matmul.py:
我编写了5个不同的实现:
1.纯Python(循环遍历2D Python列表) 2.NumPy(2D NumPy数组的点积) 3.Weave inline(C++循环遍历2D数组) 4.Cython(循环遍历2D Python列表+静态类型) 5.Cython-Numpy(循环遍历2D NumPy数组+静态类型)
我的期望是实现2到5比实现1快得多。然而,我的结果表明相反。这些是相对于纯Python实现的归一化加速结果: python_list: 1.00 numpy_array: 330.09 weave_inline: 30.72 cython_list: 2.80 cython_array: 0.14
我对NumPy的性能非常满意,但对Weave的性能不太热衷,而Cython的性能让我哭泣。我的整个代码分为两个文件。一切都是自动化的,您只需运行第一个文件即可查看所有结果。请问有人可以帮助我指出我可以做些什么以获得更好的结果吗?
matmul.py:
import time
import numpy as np
from scipy import weave
from scipy.weave import converters
import pyximport
pyximport.install()
import cython_matmul as cml
def python_list_matmul(A, B):
C = np.zeros(A.shape, dtype=float).tolist()
A = A.tolist()
B = B.tolist()
for k in xrange(len(A)):
for i in xrange(len(A)):
for j in xrange(len(A)):
C[i][k] += A[i][j] * B[j][k]
return C
def numpy_array_matmul(A, B):
return np.dot(A, B)
def weave_inline_matmul(A, B):
code = """
int i, j, k;
for (k = 0; k < N; ++k)
{
for (i = 0; i < N; ++i)
{
for (j = 0; j < N; ++j)
{
C(i, k) += A(i, j) * B(j, k);
}
}
}
"""
C = np.zeros(A.shape, dtype=float)
weave.inline(code, ['A', 'B', 'C', 'N'], type_converters=converters.blitz, compiler='gcc')
return C
N = 100
A = np.random.rand(N, N)
B = np.random.rand(N, N)
function = []
function.append([python_list_matmul, 'python_list'])
function.append([numpy_array_matmul, 'numpy_array'])
function.append([weave_inline_matmul, 'weave_inline'])
function.append([cml.cython_list_matmul, 'cython_list'])
function.append([cml.cython_array_matmul, 'cython_array'])
t = []
for i in xrange(len(function)):
t1 = time.time()
C = function[i][0](A, B)
t2 = time.time()
t.append(t2 - t1)
print function[i][1] + ' \t: ' + '{:10.6f}'.format(t[0] / t[-1])
cython_matmul.pyx:
import numpy as np
cimport numpy as np
import cython
cimport cython
DTYPE = np.float
ctypedef np.float_t DTYPE_t
@cython.boundscheck(False)
@cython.wraparound(False)
@cython.nonecheck(False)
cpdef cython_list_matmul(A, B):
cdef int i, j, k
cdef int N = len(A)
A = A.tolist()
B = B.tolist()
C = np.zeros([N, N]).tolist()
for k in xrange(N):
for i in xrange(N):
for j in xrange(N):
C[i][k] += A[i][j] * B[j][k]
return C
@cython.boundscheck(False)
@cython.wraparound(False)
@cython.nonecheck(False)
cpdef cython_array_matmul(np.ndarray[DTYPE_t, ndim=2] A, np.ndarray[DTYPE_t, ndim=2] B):
cdef int i, j, k, N = A.shape[0]
cdef np.ndarray[DTYPE_t, ndim=2] C = np.zeros([N, N], dtype=DTYPE)
for k in xrange(N):
for i in xrange(N):
for j in xrange(N):
C[i][k] += A[i][j] * B[j][k]
return C
weave
这样的东西产生偏差,因为在第一次计算期间,weave
需要实际编译内联代码——随后的调用可能会绕过这个非常昂贵的步骤,因为我认为内联代码将被缓存。 - mgilsonnp.import_array()
可以让你使用Numpy的C API,并调用np.PyArray_MatrixProduct2(A, B, C)
而不是执行循环。 (或者这是否使您的cython函数变得无用?)使用np.matrix
而不是np.ndarray
也可能会影响性能,但我不确定有多大影响。 - JAB