我有一个文件,其中的行看起来像这样:
chr5 153584000 153599999 D16073_orphan_reads.fa;709[F18|R11] unkn 1 unkn 2509
chr7 153764000 153775999 D16073_orphan_reads.fa;710[F9|R21],14892_orphan_reads.fa;229[F19|R16] unkn 1 unkn 2510
chr3 127848000 127871999 B15971_orphan_reads.fa;172[F35|R6],D16157-14_orphan_reads.fa;183[F6|R13],14892_orphan_reads.fa;229[F19|R16],USP19283_orphan_reads.fa;336[F10|R6],D15927-14_orphan_reads.fa;176[F11|R10],1007,1007 46 1007 1658
(...)
我想创建一个正则表达式,用于获取每行的fasta文件(.fa)名称(有时一行可能有多个文件)。
我希望最终得到类似以下的内容:
D16073_orphan_reads.fa
D16073_orphan_reads.fa, 14892_orphan_reads.fa
B15971_orphan_reads.fa, D1615714_orphan_reads.fa, 14892_orphan_reads.fa,USP19283_orphan_reads.fa, D15927-14_orphan_reads.fa
我尝试了:
pattern= re.search(".+.[.fa]", line)
问题在于文件名非常不规则。唯一的线索是:
- 以 .fa 结尾
- 在逗号后开始
谢谢。
[\w|-]
字符类匹配一个单词字符 (\w
),一个字面上的管道|
或一个字面上的连字符-
。我认为你想要写成[\w-]
。 - Wiktor Stribiżew