我可以在Python2中使用
在Python3中,我可以避免使用'something'甚至是
因此,解决方案应包括文字字符串
ur'something'
和re.U
标志来编译正则表达式模式,例如::
$ python2
Python 2.7.13 (default, Dec 18 2016, 07:03:39)
[GCC 4.2.1 Compatible Apple LLVM 8.0.0 (clang-800.0.42.1)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> import re
>>> pattern = re.compile(ur'(«)', re.U)
>>> s = u'«abc «def«'
>>> re.sub(pattern, r' \1 ', s)
u' \xab abc \xab def \xab '
>>> print re.sub(pattern, r' \1 ', s)
« abc « def «
在Python3中,我可以避免使用'something'甚至是
re.U
标志:$ python3
Python 3.5.2 (default, Oct 11 2016, 04:59:56)
[GCC 4.2.1 Compatible Apple LLVM 8.0.0 (clang-800.0.38)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> import re
>>> pattern = re.compile(r'(«)')
>>> s = u'«abc «def«'
>>> print( re.sub(pattern, r' \1 ', s))
« abc « def «
但是目标是编写正则表达式,以支持Python2和Python3。在Python3中执行ur'something'
会导致语法错误:
>>> pattern = re.compile(ur'(«)', re.U)
File "<stdin>", line 1
pattern = re.compile(ur'(«)', re.U)
^
SyntaxError: invalid syntax
由于这是一个语法错误,在Python3中即使在声明模式之前检查版本也不起作用:
>>> import sys
>>> _pattern = r'(«)' if sys.version_info[0] == 3 else ur'(«)'
File "<stdin>", line 1
_pattern = r'(«)' if sys.version_info[0] == 3 else ur'(«)'
^
SyntaxError: invalid syntax
如何使用Unicode正则表达式来支持Python2和Python3?
虽然在这种情况下,r''
可以轻松地通过删除字面字符串来替换为u''
。
但是对于某些需要保持清晰的复杂正则表达式,例如:r''
是必须的。
re.sub(re.compile(r'([^\.])(\.)([\]\)}>"\'»]*)\s*$', re.U), r'\1 \2\3 ', s)
因此,解决方案应包括文字字符串
r''
的使用,除非有其他方法可以避免。但请注意,使用字符串字面量、unicode_literals
或来自__future__
的导入是不被推荐的,因为它会在代码库的其他部分引起大量问题,特别是我正在处理的部分,请参见http://python-future.org/unicode_literals.html
代码库不鼓励使用unicode_literals
导入的具体原因是因为其中充满了这些字符,每个字符的更改都将极其繁琐,例如:
u'(«)'
应该可以正常工作... - mgilsonre.escape
能否替代原始字符串的使用?就像re.compile(re.escape(u'([^\.])(\.)([\]\)}>"\'»]*)\s*$'), re.U)
这样? - alvasre.escape
无法真正帮助你。很遗憾他们不支持ur
前缀,但我猜他们想限制前缀的数量,毕竟,Python 2 不必永远得到支持。- 为什么不在模块基础上使用未来的unicode_literals
,例如仅针对那些实际包含大量复杂正则表达式的文件?对于其余部分,似乎您将不得不加倍反斜杠... - lenznltk
的多少部分会被unicode_literals
打破,特别是在nltk.tokenize.__init__.py
中。这似乎是一个棘手的问题。 - alvasnltk.tokenize.__init__
有大约6个字符串字面量(所有正则表达式模式),其中三个已经是Unicode。这样留下了三个字符串需要测试。(unicode_literals
不会影响任何被导入的内容。) - lenz