我有几个大型数据文件(约100MB-1GB的文本)和数万个时间戳的排序列表,这些时间戳索引了感兴趣的数据点。时间戳文件看起来像:
12345
15467
67256
182387
199364
...
数据文件如下:
Line of text
12345 0.234 0.123 2.321
More text
Some unimportant data
14509 0.987 0.543 3.600
More text
15467 0.678 0.345 4.431
第二个文件中的数据按时间戳顺序排列。我想使用第一个文件的时间戳在第二个文件中进行grep,并将时间戳和第四个数据项打印到输出文件中。我一直在使用以下命令:
grep -wf time.stamps data.file | awk '{print $1 "\t" $4 }' >> output.file
每个数据文件的完成时间大约需要一天。问题在于这个命令会搜索time.stamps中的每一行,但我只需要从最后一个数据点开始搜索。有没有办法加快这个过程?
a
中,第二部分是检查数据文件中第一个字段在该数组中是否存在,我就能看出这是一个非常优雅的解决方案,只需要足够的内存来存储所有时间戳。 - Simon