我有一个大的日志文件,我想提取两个字符串之间的多行字符串:start
和end
。
以下是来自inputfile
的示例:
start spam
start rubbish
start wait for it...
profit!
here end
start garbage
start second match
win. end
期望的解决方案应该打印出:
start wait for it...
profit!
here end
start second match
win. end
我尝试了一个简单的正则表达式,但它返回了从“start spam”开始的所有内容。应该如何处理?
编辑:有关实际计算复杂度的其他信息:
- 实际文件大小:2GB - “start”的出现次数:约12M个,均匀分布 - “end”的出现次数:约800个,靠近文件末尾。
start
和end
之间的内容,那么得到start spam
作为开始结果是很正常的... 你能否澄清你想要的行为? - lcoderre