我有一个字符串,它长这样:
s = 'word1 word2 (word3 word4) word5 word6 (word7 word8) word9 word10'
如何删除括号中的所有内容,以便输出为:
'word1 word2 word5 word6 word9 word10'
我尝试了正则表达式,但好像不起作用。有什么建议吗?
最好的, Jacques
import re
s = re.sub(r'\(.*?\)', '', s)
>>> re.sub(r'\(.*?\)', '', s)
'word1 word2 word5 word6 word9 word10'
>>> # -------^ -----------^ (Note double spaces there)
>>> re.sub(r'\(.*?\)\ *', '', s)
'word1 word2 word5 word6 word9 word10'
s = re.sub('\(.*\)', '', s)
问号的作用是什么? - Jacques Knie(
在正则表达式字符串中有特殊含义。(.*)
是一个分组。因此,你需要用反斜杠转义 (
来消除其特殊含义,使其被视为要匹配的字面字符 (
。 - Susam Pal.*
将匹配所有内容,包括右括号。在末尾加上 ?
后,它变成了“非贪婪模式”,当剩余的正则表达式可以匹配时(即下一个是右括号),它将停止消耗。在这种特殊情况下,[^)]*
是另一种选择。 - user395760我的解决方案更好,只是因为它删除了额外的空格字符 ;-)
re.sub( "\s\(.*?\)","",s)
编辑:您说得对,它不能捕捉所有情况。当然,我可以编写更复杂的表达式,尝试考虑更多细节:
re.sub( "\s*\(.*?\)\s*"," ",s)
'(hello) there'
:) - tzot\([^\)]*\)
。你可以逐个字符地处理它。如果你保留一个字符串作为结果字符串,一个字符串作为丢弃字符串,并且一个布尔值表示你是否正在删除。
然后,对于每个字符,如果布尔值为真,则将其添加到删除字符串中;如果为假,则将其添加到实际字符串中。如果是开括号,则将其添加到删除字符串中并将布尔值设置为true;如果是闭括号,则将删除字符串设置为空字符串并将布尔值设置为false。
最后,如果有括号打开但未关闭,则会在结尾处留下一个删除字符串。
如果你想处理多个括号,请使用一个整数计数器来记录你已经打开但未关闭的括号数量,而不是使用布尔值。
>>> s.replace('(','').replace(')','')
'word1 word2 word3 word4 word5 word6 word7 word8 word9 word10'
这比正则表达式快4倍
>>> t1 = timeit.Timer("s.replace('(','').replace(')','')", "from __main__ import s")
>>> t2 = timeit.Timer("sub(r'\(.*?\)\ *', '', s)", "from __main__ import s; from re import sub")
>>> t1.repeat()
[0.73440917436073505, 0.6970294320000221, 0.69534249907820822]
>>> t2.repeat()
[2.7884134544113408, 2.7414613750137278, 2.7336896241081377]