我已经为2D卷积制作了一个CUDA程序,现在想将其与一些非CUDA实现进行比较,以衡量加速效果。
我可以将其与使用传统的多重循环方法或matlab的conv2的纯C自己实现进行比较,但这并不像是一个合法/公平的比较,因为它们不是最快的实现方式。
此外,我正在考虑尝试OpenCV,并且一直在寻找SIMD优化版本,但没有成功。有什么建议吗?我应该选择OpenCV吗?
注意:我已阅读其他问题,包括这个,但答案基本上与我的纯C代码或讨论可用的各种方法相同。
我可以将其与使用传统的多重循环方法或matlab的conv2的纯C自己实现进行比较,但这并不像是一个合法/公平的比较,因为它们不是最快的实现方式。
此外,我正在考虑尝试OpenCV,并且一直在寻找SIMD优化版本,但没有成功。有什么建议吗?我应该选择OpenCV吗?
注意:我已阅读其他问题,包括这个,但答案基本上与我的纯C代码或讨论可用的各种方法相同。