我已经寻找了一段时间,但似乎找不到一个官方的/确定的数字,它引用了一个Intel Xeon四核可以完成的单精度浮点运算/时钟周期的数量。 我有一个Intel Xeon四核E5530 CPU。
我希望利用它计算出CPU可以实现的最大理论FLOP/s。
MAX FLOPS =(#核心数)*(时钟频率(每秒钟的循环次数))*(#每个周期的FLOPS)
任何对指导我走向正确方向的内容都将是有用的。 我发现这个 FLOPS per cycle for sandy-bridge and haswell SSE2/AVX/AVX2
Intel Core 2和Nehalem:
每个周期4个DP FLOPs:2个宽SSE2加法+ 2个宽SSE2乘法
每个周期8个SP FLOPs:4个宽SSE加法+ 4个宽SSE乘法
但我不确定这些数字来自哪里。 它们是否假定了融合乘加(FMAD)操作?
编辑:使用此功能,我计算出DP中英特尔引用的正确DP算术吞吐量为38.4 GFLOP / s(在此处引用)。对于SP,我得到了双倍的速度,即76.8 GFLOP / s。 我很确定每个周期4个DP FLOP和8个SP FLOP是正确的,我只是想确认他们如何获得FLOPs / cycle值为4和8。