逐步搜索大文件的Grepping

Question

5

我有几个大型数据文件（约100MB-1GB的文本）和数万个时间戳的排序列表，这些时间戳索引了感兴趣的数据点。时间戳文件看起来像：

数据文件如下：

Line of text
12345 0.234 0.123 2.321
More text
Some unimportant data
14509 0.987 0.543 3.600
More text
15467 0.678 0.345 4.431

第二个文件中的数据按时间戳顺序排列。我想使用第一个文件的时间戳在第二个文件中进行grep，并将时间戳和第四个数据项打印到输出文件中。我一直在使用以下命令：

grep -wf time.stamps data.file | awk '{print $1 "\t" $4 }'  >> output.file

每个数据文件的完成时间大约需要一天。问题在于这个命令会搜索time.stamps中的每一行，但我只需要从最后一个数据点开始搜索。有没有办法加快这个过程？

- user2548142

3个回答

1

JS웃的awk解决方案可能是最好的选择。如果join可用且无关“数据”的第一个字段不是数字，则可以利用文件的顺序相同并避免排序步骤。此示例在Linux上使用bash进程替换。

join  -o2.1,2.4 -1 1 -2 1 key.txt <(awk '$1 ~ /^[[:digit:]]+$/' data.txt)

- iruvar

0

'grep'有一个很少使用的选项-f文件名，它可以从文件名中获取模式并进行匹配。这可能比awk解决方案更好，并且您的时间戳不必排序。

- user1666959

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- jaypal singh · Accepted Answer

4

您可以完全在awk中完成此操作...

awk 'NR==FNR{a[$1]++;next}($1 in a){print $1,$4}' timestampfile datafile

- jaypal singh

1

+1：我花了一点时间才理解这是如何工作的，但一旦我明白了脚本的第一部分是将所有时间戳加载到数组a中，第二部分是检查数据文件中第一个字段在该数组中是否存在，我就能看出这是一个非常优雅的解决方案，只需要足够的内存来存储所有时间戳。 - Simon

1

@Simon，朋友，你是个快速学习者。它确实做到了这一点。为了进一步提高性能，您可以在匹配后删除数组元素。这将减小下一次扫描的大小，尽管如果该元素再次出现在文件中，则不会匹配。 - jaypal singh

不错！以前需要8小时才能完成的工作现在只需要12秒钟。 - user2548142