您知道卷积通常通过使用FFT进行吗?例如,可以查看:http://en.wikipedia.org/wiki/Convolution 所以您需要一个FFT库。 计算卷积的最快方法建议使用http://www.fftw.org/(用于传统CPU)。对于CUDA,则使用cufft - http://www.gsic.titech.ac.jp/~ccwww/tebiki/tesla_e/tesla6_e.html。
英特尔有一个非常好的例子 - 使用SSE + OpenMP和串行版本。 该代码主要用于分析串行和并行方法,但以一种不错的方式完成。 http://software.intel.com/en-us/articles/16bit-3d-convolution-sse4openmp-implementation-on-penryn-cpu/
你是注册开发者吗?如果是的话,你应该下载3.0 SDK,并查看FDTD3d示例,它展示了3D卷积在显式有限差分应用中的应用。在2.3 SDK中,有一个名为3dfd的类似示例(现已被替换)。如果你的脉冲响应很短,使用这种方法可能更有效率,而不是使用FFT。