这是文本文件 abc.txt。
abc.txt
aa:s0:education.gov.in
bb:s1:defence.gov.in
cc:s2:finance.gov.in
我将尝试使用以下正则表达式在每个冒号处进行标记化(如果术语不正确,请纠正我)来解析此文件。 parser.py
import re,sys,os,subprocess
path = "C:\abc.txt"
site_list = open(path,'r')
for line in site_list:
site_line = re.search(r'(\w)*:(\w)*:([\w\W]*\.[\W\w]*\.[\W\w]*)',line)
print('Regex found that site_line.group(2) = '+str(site_line.group(2))
为什么输出的结果是:
Regex found that site_line.group(2) = 0
Regex found that site_line.group(2) = 1
Regex found that site_line.group(2) = 2
请问有人能帮我理解为什么它匹配第二组的最后一个字符吗?我认为它从s0匹配0,从s1匹配1,从s2匹配2。
但是为什么呢?
re.search
而不是re.match
? - Jimilianline.split(':')
)。 - Darrick Herwehe