如何在Python中从正则表达式匹配中返回一个字符串?

105

我正在使用一段Python脚本遍历文本文件中的行。 我想在文本文档中查找img标签并将其作为文本返回。

当我运行正则表达式re.match(line)时,它会返回一个_sre.SRE_MATCH对象。 我如何让它返回一个字符串?

import sys
import string
import re

f = open("sample.txt", 'r' )
l = open('writetest.txt', 'w')

count = 1

for line in f:
    line = line.rstrip()
    imgtag  = re.match(r'<img.*?>',line)
    print("yo it's a {}".format(imgtag))

运行时会打印:

yo it's a None
yo it's a None
yo it's a None
yo it's a <_sre.SRE_Match object at 0x7fd4ea90e578>
yo it's a None
yo it's a <_sre.SRE_Match object at 0x7fd4ea90e578>
yo it's a None
yo it's a <_sre.SRE_Match object at 0x7fd4ea90e578>
yo it's a <_sre.SRE_Match object at 0x7fd4ea90e5e0>
yo it's a None
yo it's a None
4个回答

147

你应该使用 re.MatchObject.group(0)。就像这样

imtag = re.match(r'<img.*?>', line).group(0)

编辑:

你也许最好做类似于以下的事情:

imgtag  = re.match(r'<img.*?>',line)
if imtag:
    print("yo it's a {}".format(imgtag.group(0)))

消除所有的None


请参见http://docs.python.org/2/library/re.html#match-objects。 - stalepretzel
我尝试了上面展示的代码,但是返回值为None。如果我将'method'改为'search'而不是'match',我得到了预期的结果。不确定为什么会这样...? - Bernard Esterhuyse
匹配被锚定在行的开头。 - wflynny
imgtag.group() 不使用索引也有效。 - guesswho

11

10
请注意,re.match(pattern, string, flags=0) 只会在字符串开头返回匹配项。如果您想要在字符串任何位置定位匹配项,请改用re.search(pattern, string, flags=0)https://docs.python.org/3/library/re.html)。这将扫描字符串并返回第一个匹配对象。然后,您可以使用 match_object.group(0) 提取匹配的字符串,正如其他人建议的那样。

8

考虑到可能会有多个 img 标签,我建议使用 re.findall

import re

with open("sample.txt", 'r') as f_in, open('writetest.txt', 'w') as f_out:
    for line in f_in:
        for img in re.findall('<img[^>]+>', line):
            print >> f_out, "yo it's a {}".format(img)

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接