我的代码的关键部分是矩阵乘法。基本上,代码看起来像以下Python代码,使用1000阶矩阵和长循环。
import numpy as np
m_size = 1000
sim_length = 50
a = np.random.rand(m_size, m_size)
b = np.random.rand(m_size, m_size)
for j in range(sim_length):
result = np.dot(a,b)
注意:我的矩阵是密集的,大多数是随机的,并且循环使用cython编译。
我天真的想法是有两个因素:
- 更多的并行线程(当前为1个线程的顺序,GPU为100个线程的顺序?)--> 速度提升约100倍?[来源已经过时,来自2011年]
- 较低的处理器频率(目前为3Ghz,GPU通常为2Ghz)--> 忽略