使用AWK将单个文件拆分成多个文件，但我需要进一步的指导。

Question

使用AWK将单个文件拆分成多个文件，但我需要进一步的指导。

awksplit

3

我对这种类型的任务仍然很陌生，但是我已经用尽了自己的资源，因此寻求帮助之手。

我有一个由连接文件组成的单个文件。我能够使用下面的准确代码行来分割这些文件：

awk "/PATTERN/{x="F"++i;}{print > x;}" sourceFile

但是 -

如有可能，我希望为输出文件指定目录 - 上述脚本会将输出文件写入“sourceFile”目录中，我希望这些文件被放置在某种临时目录中。
如果输出文件可以保留其“sourceFile”名称并带有计数器以保持.txt文件类型，则会非常有帮助 - 即sourceFile1.txt，sourceFile2.txt等。

我尝试过以下方法来保留sourceFile名称，但不成功：

set F=sourceFile
awk "/PATTERN/{x="F"++i;}{print > x;}" sourceFile

非常抱歉如果这些内容太基础，但它可以极大地帮助日常任务 - 所以我希望有人能够帮忙。提前谢谢！

- Josh H

可能是AWK根据模式将文件拆分为较小的文件的重复问题。 - mschilli

2个回答

2

awk可以接受shell变量，如果你想要设置目录和文件名：

D="/path/to/newfiles/"
F="sourceFile"

awk -v d="$D" -v f="$F" '/PATTERN/{x=d f (++i)}{print > x;}' sourceFile

现在，目标目录和文件名是动态的，您可以在awk调用之前将它们设置为适当的值。

但是还有另一件事情需要注意。在您的文件中有多少个PATTERN。如果太多了，你会看到类似"too many files opened"的错误消息。在这种情况下，您必须在写入新文件之前关闭上一个文件。

- Kent

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Chris Seymour · Accepted Answer

您已经接近成功了，只需在文件名前加上目录并使用字符串连接添加文件扩展名即可：

awk '/PATTERN/{file="tmp/"(FILENAME)(++i)".txt"}{print > file}' sourceFile

我们不需要使用一个shell变量来表示输入文件，我们可以使用awk变量 FILENAME 代替它。 示例：

$ cat sourceFile 
PATTERN sf1
sf1
sf1
sf1
PATTERN sf2
sf2
sf2
PATTERN sf3
sf3
sf3

$ awk '/PATTERN/{file="tmp/"(FILENAME)(++i)".txt"}{print > file}' sourceFile

$ cat tmp/sourceFile1.txt
PATTERN sf1
sf1
sf1
sf1

$ cat tmp/sourceFile2.txt 
PATTERN sf2
sf2
sf2

$ cat tmp/sourceFile3.txt 
PATTERN sf3
sf3
sf3