我认为问题可能在于正则表达式模式匹配了子模式
EN_EXTRACT_REGEX
和
NUM_EXTRACT_REGEX
中的一个,而不是两个都匹配。
当
re.sub()
匹配第一个模式中的字母字符时,它尝试使用
\2
替换第二组引用,但失败了,因为只有第一组匹配——没有第二组。
类似地,当数字模式匹配时,没有
\1
组可以替换,所以这也失败了。
您可以在Python 2中进行以下测试,以查看这种情况。
>>> re.sub(AGGR_REGEX, r' \1', 'abcd')
abcd
>>> re.sub(AGGR_REGEX, r' \2', 'abcd')
Traceback (most recent call last):
....
sre_constants.error: unmatched group
不同版本的Python 2和Python 3使用了不同版本的正则表达式引擎,这就是差异的原因。不幸的是,我无法确定差异的确切原因,但是在版本3.5中,
re.sub()
有一个记录的变化,涉及未匹配的组:
版本3.5中的更改:未匹配的组将被替换为空字符串。
这就解释了为什么它在Python >= 3.5中有效,但在早期版本中无效:未匹配的组基本上被忽略了。
作为一种解决方法,您可以将模式更改为将两个匹配项处理为单个组:
import re
EN_EXTRACT_REGEX = '[a-zA-Z]+'
NUM_EXTRACT_REGEX = '[0-9]+'
AGGR_REGEX = '(' + EN_EXTRACT_REGEX + '|' + NUM_EXTRACT_REGEX + ')'
for s in '', '1234', 'abcd', 'a1b2c3', 'aa__bb__1122cdef', '_**_':
print(re.sub(AGGR_REGEX, r' \1', s))
输出
1234
abcd
a 1 b 2 c 3
aa__ bb__ 1122 cdef
_**_