我有一个包含成千上万个存取号码的文件:
长这样...
>NC_033829.1 Kallithea virus isolate DrosEU46_Kharkiv_2014, complete genome
AGTCAGCAACGTCGATGTGGCGTACAATTTCTTGATTACATTTTTGTTCCTAACAAAATGTTGATATACT
>NC_020414.2 Escherichia phage UAB_Phi78, complete genome
TAGGCGTGTGTCAGGTCTCTCGGCCTCGGCCTCGCCGGGATGTCCCCATAGGGTGCCTGTGGGCGCTAGG
如果想将此文件拆分为每个接入号一个文件,那么我可以使用以下代码。
awk -F '|' '/^>/ {F=sprintf("%s.fasta",$2); print > F;next;} {print >> F;}' < yourfile.fa
我有一个包含成千上万个接入号(也称为>NC_*)的文件,想要将其分割,使每个文件包含大约5000个接入号。由于我是awk/bash/python的新手,因此我很难找到一个简洁的解决方案。
欢迎提出任何想法或评论。