如何以最快的方式读取一个大型二进制文件(2-3 GB)中每30个字节?我了解到fseek存在I/O缓冲区的性能问题,但是我也不想在取出每30个字节之前将2-3 GB的数据读入内存。
如何以最快的方式读取一个大型二进制文件(2-3 GB)中每30个字节?我了解到fseek存在I/O缓冲区的性能问题,但是我也不想在取出每30个字节之前将2-3 GB的数据读入内存。
性能测试。如果你想自己使用它,请注意,完整性检查(打印总数)仅在“步骤”除以BUFSZ,并且MEGS足够小,以免读取文件结束时的内容。这是由于(a)懒惰,(b)不希望掩盖真正的代码。rand1.data是从/dev/urandom使用dd
复制的几GB。
#include <stdio.h>
#include <stdlib.h>
const long long size = 1024LL*1024*MEGS;
const int step = 32;
int main() {
FILE *in = fopen("/cygdrive/c/rand1.data", "rb");
int total = 0;
#if SEEK
long long i = 0;
char buf[1];
while (i < size) {
fread(buf, 1, 1, in);
total += (unsigned char) buf[0];
fseek(in, step - 1, SEEK_CUR);
i += step;
}
#endif
#ifdef BUFSZ
long long i = 0;
char buf[BUFSZ];
while (i < size) {
fread(buf, BUFSZ, 1, in);
i += BUFSZ;
for (int j = 0; j < BUFSZ; j += step)
total += (unsigned char) buf[j];
}
#endif
printf("%d\n", total);
}
结果:
$ gcc -std=c99 buff2.c -obuff2 -O3 -DBUFSZ=32*1024 -DMEGS=20 && time ./buff2
83595817
real 0m1.391s
user 0m0.030s
sys 0m0.030s
$ gcc -std=c99 buff2.c -obuff2 -O3 -DBUFSZ=32 -DMEGS=20 && time ./buff2
83595817
real 0m0.172s
user 0m0.108s
sys 0m0.046s
$ gcc -std=c99 buff2.c -obuff2 -O3 -DBUFSZ=32*1024 -DMEGS=20 && time ./buff2
83595817
real 0m0.031s
user 0m0.030s
sys 0m0.015s
$ gcc -std=c99 buff2.c -obuff2 -O3 -DBUFSZ=32 -DMEGS=20 && time ./buff2
83595817
real 0m0.141s
user 0m0.140s
sys 0m0.015s
$ gcc -std=c99 buff2.c -obuff2 -O3 -DSEEK -DMEGS=20 && time ./buff2
83595817
real 0m20.797s
user 0m1.733s
sys 0m9.140s
总结:
我最初使用了20MB的数据,当然适合放在缓存中。第一次读取它(使用32KB缓冲区)需要1.4秒将其带入缓存。第二次(使用32字节缓冲区)只需要0.17秒。第三次(再次使用32KB缓冲区)只需要0.03秒,这太接近我的计时器时间粒度,无法具有实际意义。即使数据已经在磁盘缓存中,fseek也需要超过20秒。
此时我将fseek从环中拆出来,以便其他两个可以继续执行:
$ gcc -std=c99 buff2.c -obuff2 -O3 -DBUFSZ=32*1024 -DMEGS=1000 && time ./buff2
-117681741
real 0m33.437s
user 0m0.749s
sys 0m1.562s
$ gcc -std=c99 buff2.c -obuff2 -O3 -DBUFSZ=32 -DMEGS=1000 && time ./buff2
-117681741
real 0m6.078s
user 0m5.030s
sys 0m0.484s
$ gcc -std=c99 buff2.c -obuff2 -O3 -DBUFSZ=32*1024 -DMEGS=1000 && time ./buff2
-117681741
real 0m1.141s
user 0m0.280s
sys 0m0.500s
$ gcc -std=c99 buff2.c -obuff2 -O3 -DBUFSZ=32 -DMEGS=1000 && time ./buff2
-117681741
real 0m6.094s
user 0m4.968s
sys 0m0.640s
$ gcc -std=c99 buff2.c -obuff2 -O3 -DBUFSZ=32*1024 -DMEGS=1000 && time ./buff2
-117681741
real 0m1.140s
user 0m0.171s
sys 0m0.640s
1000MB的数据似乎被大幅缓存。一个32KB的缓冲区比一个32字节的缓冲区快6倍,但差异在于用户时间,而不是在磁盘I/O上阻塞的时间。现在,8000MB远远超过我的RAM容量,因此我可以避免缓存:
$ gcc -std=c99 buff2.c -obuff2 -O3 -DBUFSZ=32*1024 -DMEGS=8000 && time ./buff2
-938074821
real 3m25.515s
user 0m5.155s
sys 0m12.640s
$ gcc -std=c99 buff2.c -obuff2 -O3 -DBUFSZ=32 -DMEGS=8000 && time ./buff2
-938074821
real 3m59.015s
user 1m11.061s
sys 0m10.999s
$ gcc -std=c99 buff2.c -obuff2 -O3 -DBUFSZ=32*1024 -DMEGS=8000 && time ./buff2
-938074821
real 3m42.423s
user 0m5.577s
sys 0m14.484s
忽略前面的那个,它受益于文件的前1000MB已经在RAM中了。
现在,具有32KB的版本在墙上时间上只稍微快一点(我懒得重新运行,所以暂时忽略它),但是看一下用户+系统时间的差异:20秒对82秒。我认为我的操作系统的猜测读取磁盘缓存在这里挽救了32字节缓冲区的局面:当32字节缓冲区被慢慢地重新填充时,尽管没有人请求它们,操作系统正在加载下几个磁盘扇区。如果没有这样做,我认为比32KB缓冲区慢一分钟(20%),因为后者在请求下一个读取之前在用户空间花费的时间更少。
故事的寓意是:在我的实现中标准I/O缓冲不够用,fseek的性能很差,就像提问者说的那样。当文件被缓存在操作系统中时,缓冲区大小非常重要。当文件不被缓存在操作系统中时,缓冲区大小对墙上时间没有太大影响,但我的CPU更忙了。
incrediman建议使用读取缓冲区是至关重要的,因为fseek很糟糕。在我的机器上争论缓冲区应该是几KB还是几百KB可能是毫无意义的,可能是因为操作系统已经确保了操作是紧密I/O绑定的。但我非常确定这归功于操作系统的磁盘预读取,而不是标准I/O缓冲,因为如果是后者,那么fseek会比它更好。实际上,可能是标准I/O正在进行预读取,但是对fseek的太简单的实现每次都丢弃缓冲区。我没有研究过这个实现(如果我这样做了,我也无法跨越边界进入操作系统和文件系统驱动程序)。
fread
不是针对 1 个字符进行优化的。你可以尝试使用 fgetc
吗? - Norman Ramseyfseek
时都会进行系统调用。真是一群白痴!我修改了你的程序,使用了Phong Vo的sfio库,此时差异仍然存在,但它们相对较小。感谢您发布如此有用的程序。哦,还有+1 :-) - Norman Ramsey你可以读取一个字节,然后在循环中寻找29个字节。但是IO子系统必须按扇区读取文件,扇区通常为512字节大小,因此它仍将读取整个文件。
从长远来看,更快的方法是以步长的倍数读取整个文件块,然后只需在缓冲区中查找。如果您确保缓冲区大小是30的倍数,并且是512的倍数,则可以使自己的工作更加简单,并使文件IO子系统的工作更容易。
while (still more file to read)
{
char buf[30 * 512];
int cread = fread (buf, sizeof(buf), 1, fd);
for (int ii = 0; ii < cread; ii += 30)
{
}
}
这种做法看起来效率低下,但实际上比尝试读取30字节块要快。
顺便说一句,如果您在Windows上运行,并且愿意使用特定于操作系统的方法,那么内存映射文件的性能确实无法被超越。 如何扫描大型磁盘文件?
#define MAPSIZE 4096
int fd = open(file, O_RDONLY);
struct stat stbuf;
fstat(fd, &stbuf);
char *addr = 0;
off_t last_mapped_offset = -1;
off_t idx = 0;
while (idx < stbuf.st_size)
{
if (last_mapped_offset != (idx / MAPSIZE))
{
if (addr)
munmap(addr, MAPSIZE);
last_mapped_offset = idx / MAPSIZE;
addr = mmmap(0, MAPSIZE, PROT_READ, MAP_FILE, fd, idx, last_mapped_offset);
}
*(addr + (idx % MAPSIZE));
idx += 30;
}
munmap(addr, MAPSIZE);
close(fd);
mmap()
一页,并且从不调用madvise()
时,典型的基于POSIX的操作系统是否仍会执行预读取? - bk1emmap()
使用 SIGBUS
来报告文件映射后发生的错误。这比来自 read()
或 fread()
的错误更难正确处理。 - bk1e如果您拥有大的地址空间(即,在64位硬件上运行64位操作系统),那么使用内存映射I/O(在POSIX系统上使用mmap
)将节省操作系统从内核空间复制数据到用户空间的成本。这种节省可能非常显著。
如下详细说明所示(感谢Steve Jessop提供基准测试),如果您关心I/O性能,则应从AT&T高级软件技术组下载Phong Vo的sfio库。它比C标准I/O库更安全、更好地设计和更快。在使用fseek
的程序中,它速度显著提升:在简单的微基准测试中最多快七倍。
只需轻松使用fseek
和fgetc
,它们被精确地设计和实现以解决您的问题。
fseek
,时间为0.15秒(BUFSZ
为30k)fseek
,时间为0.57秒重复测量表明,不使用fseek
,使用sfio仍然可以缩短约10%的运行时间,但运行时间非常嘈杂(几乎所有时间都花费在操作系统上)。
在这台机器(笔记本电脑)上,我没有足够的空闲磁盘空间来运行一个不适合于磁盘缓存的文件,但我愿意得出以下结论:
使用明智的I/O库,fseek
更昂贵,但不足以产生很大的差异(如果您只做I/O,则需要4秒钟)。
GNU项目没有提供合理的I/O库。 与经常发生的情况一样,GNU软件很糟糕。
结论:如果您想要快速的I/O,您的第一步应该是用AT&T sfio库替换GNU I/O库。 与此相比,其他影响可能会很小。
您几乎可以不用担心它。运行时很可能为每个文件句柄缓冲最后读取的块。即使没有,操作系统也会为您缓存文件访问。
话虽如此,如果您一次读取一个块,确实可以节省对fseek和fread函数的调用开销。一次读取的块越大,您保存的调用开销就越多,尽管其他成本在一定程度上开始显现。
如果您正在从带有旋转盘的硬盘中读取数据,那么答案是使用大缓冲区顺序读取整个文件,并且丢弃您不需要的内存部分。
标准硬盘驱动器可能访问的最小访问单位是扇区。所有常见旋转磁盘驱动器的扇区大小都多于30字节。这意味着无论主机请求看起来像什么,硬盘控制器都必须访问每个扇区。没有低级别的魔法可以改变这一点。
即使不是这种情况,您也可以读取单个字节,但随机读取操作与顺序读取操作相比具有巨大的优势。最好的情况仍然与顺序读取相同。在现实世界中,即使使用大量命令缓冲区,信号开销也可能阻止这些方案运行。