正如thiton所提到的,这段代码可能会受到I/O限制。然而,如今许多计算机可能拥有SSD和高吞吐量RAID磁盘。在这种情况下,您可以通过并行化获得加速。此外,如果计算不是微不足道的,则并行化胜出。即使由于饱和带宽而有效地将I/O串行化,您仍然可以通过将计算分布到多核心来获得加速。
回到问题本身,您可以通过OpenMP并行化此循环。对于
stdin
,我不知道如何并行化,因为它需要按顺序读取,没有结束的先前信息。但是,如果您正在处理典型文件,则可以这样做。
以下是我的
omp parallel
代码。我使用了一些Win32 API和MSVC CRT:
void test_io2()
{
const static int BUFFER_SIZE = 1024;
const static int CONCURRENCY = 4;
uint64_t local_checksums[CONCURRENCY];
uint64_t local_reads[CONCURRENCY];
DWORD start = GetTickCount();
omp_set_num_threads(CONCURRENCY);
#pragma omp parallel
{
int tid = omp_get_thread_num();
FILE* file = fopen("huge_file.dat", "rb");
_fseeki64(file, 0, SEEK_END);
uint64_t total_size = _ftelli64(file);
uint64_t my_start_pos = total_size/CONCURRENCY * tid;
uint64_t my_end_pos = min((total_size/CONCURRENCY * (tid + 1)), total_size);
uint64_t my_read_size = my_end_pos - my_start_pos;
_fseeki64(file, my_start_pos, SEEK_SET);
char* buffer = new char[BUFFER_SIZE];
uint64_t local_checksum = 0;
uint64_t local_read = 0;
size_t read_bytes;
while ((read_bytes = fread(buffer, 1, min(my_read_size, BUFFER_SIZE), file)) != 0 &&
my_read_size != 0)
{
local_read += read_bytes;
my_read_size -= read_bytes;
for (int i = 0; i < read_bytes; ++i)
local_checksum += (buffer[i]);
}
local_checksums[tid] = local_checksum;
local_reads[tid] = local_read;
fclose(file);
}
uint64_t checksum = 0;
uint64_t total_read = 0;
for (int i = 0; i < CONCURRENCY; ++i)
checksum += local_checksums[i], total_read += local_reads[i];
std::cout << checksum << std::endl
<< total_read << std::endl
<< double(GetTickCount() - start)/1000. << std::endl;
}
这段代码看起来有点混乱,因为我需要精确地分配要读取的文件量。但是,这段代码非常简单明了。需要记住的一件事是,您需要拥有每个线程的文件指针。不能简单地共享一个文件指针,因为内部数据结构可能不是线程安全的。此外,可以通过parallel for
并行化此代码。但是,我认为这种方法更自然。
简单实验结果
我已经测试了使用此代码在HDD(WD Green 2TB)和SSD(Intel 120GB)上读取10GB文件。
使用HDD,没有获得任何加速。甚至观察到了减速。这清楚地表明这个代码受I/O限制。这个代码实际上没有计算,只有I/O。
然而,使用SSD,我在4个核心上获得了1.2倍的加速。是的,加速比很小。但是,你仍然可以通过SSD获得它。如果计算变得更多一些(我只是放了一个非常短的忙等待循环),加速将是显着的。我能够获得2.5倍的加速。
总之,我建议您尝试并行化此代码。
此外,如果计算不是微不足道的,则建议使用流水线。上述代码只是将其分成几个大块,导致缓存效率低下。但是,管道并行化可能会产生更好的缓存利用率。尝试使用TBB进行管道并行化。他们提供了一个简单的管道结构。
lseek
和gettimeofday
即可。 - minjang