如何在Python中将多个正则表达式组合成一个?

39

我正在学习正则表达式。我不知道如何将不同的正则表达式组合成一个通用的正则表达式。

我想写一个可以适用于多种情况的单一正则表达式。我知道可以使用 " | "运算符来使用简单粗暴的方法来实现这一点。

但是我并不喜欢这种方法。有人能告诉我更好的方法吗?

5个回答

41

你需要编译所有的正则表达式函数。参考以下示例:

import re
re1 = r'\d+\.\d*[L][-]\d*\s[A-Z]*[/]\d*'
re2 = '\d*[/]\d*[A-Z]*\d*\s[A-Z]*\d*[A-Z]*'
re3 = '[A-Z]*\d+[/]\d+[A-Z]\d+'
re4 = '\d+[/]\d+[A-Z]*\d+\s\d+[A-Z]\s[A-Z]*'

sentences = [string1, string2, string3, string4]
for sentence in sentences:
    generic_re = re.compile("(%s|%s|%s|%s)" % (re1, re2, re3, re4)).findall(sentence)

@Amit,我已经修复了。我使用了你写的变量名“generic-re”,导致了错误。 - Lior Magen
1
字符类只有一个元素是毫无意义的,会使正则表达式更难读取。 - Toto
谢谢!我已经得到了这个问题的答案 https://stackoverflow.com/questions/53947401/how-to-check-with-more-regex-for-one-address-in-python-using-re-findall/53954202#53954202 - Ragu Natarajan
1
变量sentence未定义 + findall需要一个字符串而不是列表。也许您的意思是要做 for sentence in sentences - Tomerikoo
请参阅 https://dev59.com/gloU5IYBdhLWcg3w_KiO#36870447 以确认 | 运算符实际上具有最低优先级(即它比任何可能用于 re1...re4 中的其他运算符都具有“较弱的绑定力”)。 - Andre Holzner

15

要使用任意一系列 RE 来查找所有匹配项,您只需要连接每个返回的匹配列表即可:

re_list = [
    '\d+\.\d*[L][-]\d*\s[A-Z]*[/]\d*', # re1 in question,
    ...
    '\d+[/]\d+[A-Z]*\d+\s\d+[A-z]\s[A-Z]*', # re4 in question
]

matches = []
for r in re_list:
   matches += re.findall( r, string)

为了提高效率,最好使用已编译的正则表达式列表。

或者您可以使用以下方式连接元素正则表达式字符串

generic_re = re.compile( '|'.join( re_list) )

你确定上面的代码能正常工作吗?我只是简单地复制粘贴,就出现了“'str' object has no attribute 'findall'” 的错误提示。 - gented
@ gented 我犯了一个愚蠢的错误,除了你导入的 re 变量名之外,任何变量名都可以使用!我会编辑我的答案。 - nigel222

4

我看到很多人正在使用管道,但那似乎只匹配第一个实例。如果你想匹配所有实例,请尝试使用前瞻。

例如:

>>> fruit_string = "10a11p" 
>>> fruit_regex = r'(?=.*?(?P<pears>\d+)p)(?=.*?(?P<apples>\d+)a)'
>>> re.match(fruit_regex, fruit_string).groupdict()
{'apples': '10', 'pears': '11'}
>>> re.match(fruit_regex, fruit_string).group(0)
'10a,11p'
>>> re.match(fruit_regex, fruit_string).group(1)
'11'

(?= ...) 是一个向前查找:

如果 ... 匹配下一个字符,但不消耗字符串。这被称为前瞻断言。例如,Isaac (?=Asimov) 只会匹配 'Isaac ' 如果它后面跟着 'Asimov'。

.*?(?P<pears>\d+)p 在字符串中任何位置查找一个紧随数字“p”的数字,并将该数字命名为“pears”。


起初我不明白你所说的“似乎只匹配第一个实例”是什么意思,但后来我意识到你想要在一次操作中找到多个正则表达式的第一个匹配项,而不是多个正则表达式的每个匹配项(其他答案已经展示了可以使用类似于“find_all”的东西来完成)。这是一个有趣的问题需要解决。很棒的解决方案。虽然我不确定你是如何从group(0)得到'10a,11p'的。当我运行它时,它只给了我''。你是指groups()吗? - Starwarswii

0
如果您需要将多个正则表达式模式压缩在一起,则结果可能很难解析,除非您使用 P<?>.groupdict(),但这样做可能会非常冗长和不可靠。如果您只需要几个匹配项,那么可以尝试以下类似的方法:
bucket_name, blob_path = tuple(item for item in matches.groups() if item is not None)

0

你可能不需要编译两个正则表达式。这里有一种方法,看看是否适用于你。

>>> import re
>>> text = 'aaabaaaabbb'
>>> A = 'aaa'
>>> B = 'bbb'
>>> re.findall(A+B, text)
['aaabbb']
>>> 

更多阅读阅读文档


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接