我们正在考虑将一款应用程序从专用数字信号处理芯片移植到通用的x86硬件上运行。该应用程序执行大量的傅里叶变换,经过简要调查,似乎FFT在GPU上进行计算比在CPU上更为适合。例如,这个页面使用Core 2 Quad和GF 8800 GTX进行了一些基准测试,表明使用GPU时计算时间可以减少10倍:
http://www.cv.nrao.edu/~pdemores/gpu/
然而,在我们的产品中,尺寸限制使我们只能使用像PC104或Mini-ITX这样的小型形态因子,并且只能使用性能相对较弱的嵌入式GPU。
将计算卸载到GPU上是否只有在正常的PCIe总线上使用强大的图形卡才值得做,还是即使是嵌入式GPU也能提供性能改进?
将计算卸载到GPU上是否只有在正常的PCIe总线上使用强大的图形卡才值得做,还是即使是嵌入式GPU也能提供性能改进?