使用AVX和AVX2，tensorflow-gpu的速度相比没有使用AVX和AVX2的情况下快多少？

Question

使用AVX和AVX2，tensorflow-gpu的速度相比没有使用AVX和AVX2的情况下快多少？

performancetensorflow

14

使用AVX和AVX2指令集，与不使用AVX和AVX2相比，tensorflow-gpu的速度有多快？

我尝试在Google上寻找答案，但没有成功。在Windows上重新编译tensorflow-gpu很困难。因此，我想知道是否值得这样做。

- Dmitry

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Yaroslav Bulatov · Accepted Answer

如果你的计算是在CPU上进行的一个巨大矩阵乘法，那么在Xeon V3上你将获得三倍的速度提升（参见此处的基准测试）。但是也有可能看不到加速效果，这可能是因为在CPU上执行的高算术强度操作没有足够的时间。

下面是“高性能模型”指南中针对在CPU上训练resnet50的不同优化方式所列出的表格。看起来，使用最佳设置可以获得2.5倍的速度提升。

| Optimization | Data Format | Images/Sec   | Intra threads | Inter Threads |
:              :             : (step time)  :               :               :
| ------------ | ----------- | ------------ | ------------- | ------------- |
| AVX2         | NHWC        | 6.8 (147ms)  | 4             | 0             |
| MKL          | NCHW        | 6.6 (151ms)  | 4             | 1             |
| MKL          | NHWC        | 5.95 (168ms) | 4             | 1             |
| AVX          | NHWC        | 4.7 (211ms)  | 4             | 0             |
| SSE3         | NHWC        | 2.7 (370ms)  | 4             | 0             |

如果您能为Windows编译出优化版本，建议在这个问题(https://github.com/yaroslavvb/tensorflow-community-wheels/issues/13)中提到，因为似乎有一些对这样的构建有需求。