按列拆分文件

Question

按列拆分文件

3

我知道cut命令可以从文件中剪切一列（或多列），但是我需要用什么方法将一个文件分割成多个文件，使每个文件的名称为该列中的第一行，并且生成的文件数与原始文件中的列数相同？ 示例（编辑） 列以TAB分隔，长度可能不同。我希望第一个文件实际上具有行的名称。

Probe File1.txt File2.txt File3.txt
"1007_s_at" 7.84390328616472 7.60792223630275 7.77487266222512
...

还有一件事就是原始文件非常巨大，因此我希望有一种解决方案可以在一次运行中将其拆分。不能反复调用切割命令。

- Sergej Andrejev

所有列的宽度都相同吗？这也应该自动检测吗？ - A.H.

你能否发布一份输入数据的样本？ - MattH

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- MattH · Accepted Answer

可以用一行awk命令完成：

$ cat test.tsv
field1  field2  field3  field4
asdf    asdf    asdf    asdf
lkjlkj  lkjlkj  lkjlkj  lkjlkj
feh     feh     feh     bmeh

$ awk -F'\t' 'NR==1 {  for(i=1;i<=NF;i++) { names[i] = $i }; next } { for(i=1;i<=NF;i++) print $i >> names[i] }' test.tsv

$ ls
field1  field2  field3  field4  test.tsv

$ cat field4
asdf
lkjlkj
bmeh

经Glenn Jackman提醒，将制表符分隔符包含在内进行编辑

补充

从字段中删除双引号：

awk -F'\t' 'NR==1 {  for(i=1;i<=NF;i++) { names[i] = $i }; next } { for(i=1;i<=NF;i++) {gsub(/"/,"",$i); print $i >> names[i] }}' example.tsv

附加说明

仅从字段开头或结尾删除双引号：

awk -F'\t' 'NR==1 {  for(i=1;i<=NF;i++) { names[i] = $i }; next } { for(i=1;i<=NF;i++) {gsub(/^"|"$/,"",$i); print $i >> names[i] }}' example.tsv