在我的计算机上安装了192GB RAM,但在开机时,Linux内核通过mem=4G memmap=188G$4G将位于硬件地址0x100000000以上的188GB RAM保留。数据采集内核模块使用DMA将数据积累到这个大区域中作为环形缓冲区。用户空间应用程序将该环形缓冲区mmap到用户空间,然后在准备就绪时从当前位置复制块以进行处理。
使用memcpy从mmap'ed区域复制这些16MB块的性能不如我所预期。似乎性能取决于开机时保留的内存大小(稍后会mmap到用户空间)。 http://www.wurmsdobler.org/files/resmem.zip 包含一个实现mmap文件操作的内核模块源代码。
我的观察结果如下:
此致, 彼得
使用memcpy从mmap'ed区域复制这些16MB块的性能不如我所预期。似乎性能取决于开机时保留的内存大小(稍后会mmap到用户空间)。 http://www.wurmsdobler.org/files/resmem.zip 包含一个实现mmap文件操作的内核模块源代码。
module_param(resmem_hwaddr, ulong, S_IRUSR);
module_param(resmem_length, ulong, S_IRUSR);
//...
static int resmem_mmap(struct file *filp, struct vm_area_struct *vma) {
remap_pfn_range(vma, vma->vm_start,
resmem_hwaddr >> PAGE_SHIFT,
resmem_length, vma->vm_page_prot);
return 0;
}
还有一个测试应用程序,本质上执行以下操作(去除检查):
#define BLOCKSIZE ((size_t)16*1024*1024)
int resMemFd = ::open(RESMEM_DEV, O_RDWR | O_SYNC);
unsigned long resMemLength = 0;
::ioctl(resMemFd, RESMEM_IOC_LENGTH, &resMemLength);
void* resMemBase = ::mmap(0, resMemLength, PROT_READ | PROT_WRITE, MAP_SHARED, resMemFd, 4096);
char* source = ((char*)resMemBase) + RESMEM_HEADER_SIZE;
char* destination = new char[BLOCKSIZE];
struct timeval start, end;
gettimeofday(&start, NULL);
memcpy(destination, source, BLOCKSIZE);
gettimeofday(&end, NULL);
float time = (end.tv_sec - start.tv_sec)*1000.0f + (end.tv_usec - start.tv_usec)/1000.0f;
std::cout << "memcpy from mmap'ed to malloc'ed: " << time << "ms (" << BLOCKSIZE/1000.0f/time << "MB/s)" << std::endl;
我已经在SuperMicro 1026GT-TF-FM109上,使用Ubuntu 10.04.4和Linux 2.6.32进行了16MB数据块的memcpy测试,测试包括不同大小的保留内存(resmem_length):
| | 1GB | 4GB | 16GB | 64GB | 128GB | 188GB
|run 1 | 9.274ms (1809.06MB/s) | 11.503ms (1458.51MB/s) | 11.333ms (1480.39MB/s) | 9.326ms (1798.97MB/s) | 213.892ms ( 78.43MB/s) | 206.476ms ( 81.25MB/s)
|run 2 | 4.255ms (3942.94MB/s) | 4.249ms (3948.51MB/s) | 4.257ms (3941.09MB/s) | 4.298ms (3903.49MB/s) | 208.269ms ( 80.55MB/s) | 200.627ms ( 83.62MB/s)
我的观察结果如下:
从第一次到第二次运行,从mmap映射到malloc分配的memcpy似乎受益于内容可能已经被缓存。
使用memcpy时,当内存大于64GB时会出现显著的性能下降。
此致, 彼得