这是一个简单的memset
带宽基准测试:
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <time.h>
int main()
{
unsigned long n, r, i;
unsigned char *p;
clock_t c0, c1;
double elapsed;
n = 1000 * 1000 * 1000; /* GB */
r = 100; /* repeat */
p = calloc(n, 1);
c0 = clock();
for(i = 0; i < r; ++i) {
memset(p, (int)i, n);
printf("%4d/%4ld\r", p[0], r); /* "use" the result */
fflush(stdout);
}
c1 = clock();
elapsed = (c1 - c0) / (double)CLOCKS_PER_SEC;
printf("Bandwidth = %6.3f GB/s (Giga = 10^9)\n", (double)n * r / elapsed / 1e9);
free(p);
}
在我的系统(详见以下细节),使用单个DDR3-1600内存模块,它的输出结果如下:
带宽 = 4.751 GB/s (Giga = 10^9)
这是理论RAM速度的37%:1.6 GHz * 8 bytes = 12.8 GB/s
另一方面,以下是类似的“读取”测试:
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <time.h>
unsigned long do_xor(const unsigned long* p, unsigned long n)
{
unsigned long i, x = 0;
for(i = 0; i < n; ++i)
x ^= p[i];
return x;
}
int main()
{
unsigned long n, r, i;
unsigned long *p;
clock_t c0, c1;
double elapsed;
n = 1000 * 1000 * 1000; /* GB */
r = 100; /* repeat */
p = calloc(n/sizeof(unsigned long), sizeof(unsigned long));
c0 = clock();
for(i = 0; i < r; ++i) {
p[0] = do_xor(p, n / sizeof(unsigned long)); /* "use" the result */
printf("%4ld/%4ld\r", i, r);
fflush(stdout);
}
c1 = clock();
elapsed = (c1 - c0) / (double)CLOCKS_PER_SEC;
printf("Bandwidth = %6.3f GB/s (Giga = 10^9)\n", (double)n * r / elapsed / 1e9);
free(p);
}
它的输出为:
带宽 = 11.516 GB/s (千兆 = 10^9)
我可以接近读取性能的理论极限,例如对大数组进行异或运算,但写入似乎要慢得多。为什么?
操作系统 Ubuntu 14.04 AMD64 (我使用gcc -O3
编译。使用 -O3 -march=native
会稍微降低读取性能,但不会影响 memset
)
CPU Xeon E5-2630 v2
内存 单个“16GB PC3-12800 Parity REG CL11 240-Pin DIMM”(盒子上写着这个)。我认为单个DIMM可以使性能更加可预测。我假设使用4个DIMM,memset
将会更快,最多可达4倍。
主板 Supermicro X9DRG-QF(支持4通道内存)
其他系统:一台配备有2个DDR3-1067 RAM的笔记本电脑:读和写都约为5.5 GB/s,但请注意它使用了2个DIMM。
附注:使用此版本替换memset
将会得到完全相同的性能。
void *my_memset(void *s, int c, size_t n)
{
unsigned long i = 0;
for(i = 0; i < n; ++i)
((char*)s)[i] = (char)c;
return s;
}
printf("%4d/%4ld\r", p[0], r);
很可能是你正在计时的内容,而不是其他任何东西。I/O 操作很慢。 - Retired Ninjaprintf
被调用了101次。 - MWB