我有一个文本文件,内容如下:
我希望能够解析这个文件并将所有基因名(
我有以下代码。
当我运行那段代码时,得到的结果是:
正则表达式跳过了每个基因的前两个字符,我无法弄清原因。
Name #Variants #Cases #Controls
CNGA3 5 5 0
GPR125 4 3 0
IGHMBP2 4 4 0
STK11IP 4 4 0
ACAD9 3 3 0
ANKRD17 3 3 0
我希望能够解析这个文件并将所有基因名(
name
列)返回到一个列表中 - list_of_genes
,或者类似的东西。我有以下代码。
gene_list = []
for i in range (6, 7):
run_file = open('run_{}_results.txt'.format(i))
gene = re.compile('[^\s]*', re.I)
for line in run_file:
match=gene.match(line, re.IGNORECASE)
if match:
matched_gene = match.group()
gene_list.append(matched_gene)
当我运行那段代码时,得到的结果是:
['GA3', 'R125', 'HMBP2', 'K11IP', 'AD9', 'KRD17']
正则表达式跳过了每个基因的前两个字符,我无法弄清原因。
i
和j
循环都是无关紧要的。 - alexisi
、j
等。 - Tim Pietzckernext(runfile)
或runfile.readline()
即可跳过一行。 - Tim Pietzcker