Python正则表达式中用于Unicode文本的单词边界

Question

Python正则表达式中用于Unicode文本的单词边界

6

我想在正则表达式中使用单词边界来匹配一些Unicode文本。在Python正则表达式中，Unicode字母被检测为单词边界，如下所示：

>>> re.search(r"\by\b","üyü")
<_sre.SRE_Match object at 0x02819E58>

>>> re.search(r"\by\b","ğyğ")
<_sre.SRE_Match object at 0x028250C8>

>>> re.search(r"\by\b","uyu")
>>>

为了使单词边界符不匹配Unicode字母，我应该做些什么？

- Mert Nuhoglu

3个回答

5

您可以按照以下方式使用它：

re.search(r'(?u)\by\b', 'üyü')

要熟悉标志，请尝试使用以下内容：(?iLmsux)

建议阅读《Core Python应用编程》第3版，其中有一章关于正则表达式的介绍。

- rolandvarga

0

#!/usr/bin/python
# -*- coding: utf-8 -*-

s = ur"abcd ААБВ"
import re
rx1 = re.compile(ur"(?u)АБВ")
rx2 = re.compile(ur"(?u)АБВ\b")
rx3 = re.compile(ur"(?u)\bАБВ\b")
print rx1.findall(s)
print rx2.findall(s)
print rx3.findall(s)

print re.search(ur'(?u)ривет\b', ur'Привет')
print re.search(ur'(?u)\bривет\b', ur'Привет')

输出：

[u'\u0410\u0411\u0412']
[u'\u0410\u0411\u0412']
[]
<_sre.SRE_Match object at 0x01F056B0>
None

- Alexander Lubyagin

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- user861537 · Accepted Answer

使用 re.UNICODE ：

>>> re.search(r"\by\b","üyü", re.UNICODE)
>>>