PHP中的正则表达式元字符\w和\pL

Question

PHP中的正则表达式元字符\w和\pL

4

在版本5.3.4 - 5.5.0beta1中，\w和\pL是否等价？

 <?php
preg_match_all('#\w#u','سیب',$f);
var_dump($f);

preg_match_all('#\pL#u','سیب',$f);
var_dump($f);

array(1) {
  [0]=>
  array(3) {
    [0]=>
    string(2) "س"
    [1]=>
    string(2) "ی"
    [2]=>
    string(2) "ب"
  }
}
array(1) {
  [0]=>
  array(3) {
    [0]=>
    string(2) "س"
    [1]=>
    string(2) "ی"
    [2]=>
    string(2) "ب"
  }
}

Try the above snippet in the Online PHP shell

- Handsome Nerd

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- nickb · Accepted Answer

当您在PCRE正则表达式中使用u修饰符时，似乎PHP除了设置PCRE_UTF8标志外，还设置了PCRE_UCP标志，这会导致Unicode属性被引入到\w和其他POSIX字符类中，而不仅仅是默认的ASCII字符。来自PCRE手册页面的内容如下：

PCRE_UCP

此选项更改PCRE处理\B、\b、\D、\d、\S、\s、\W、\w和某些POSIX字符类的方式。默认情况下，只识别ASCII字符，但如果设置了PCRE_UCP，则使用Unicode属性来对字符进行分类。

然后在PHP源代码中确认了这一点（第366-372行），我们可以看到以下内容：

        case 'u':   coptions |= PCRE_UTF8;
/* In  PCRE,  by  default, \d, \D, \s, \S, \w, and \W recognize only ASCII
   characters, even in UTF-8 mode. However, this can be changed by setting
   the PCRE_UCP option. */
#ifdef PCRE_UCP
                    coptions |= PCRE_UCP;
#endif

因此，从我上面链接的同一手册中，您会看到当设置PCRE_UCP时，字符类变为：

\d 与\p{Nd}匹配的任何字符（十进制数字）

\s 与\p{Z}匹配的任何字符，加上HT、LF、FF、CR

\w 与\p{L}或\p{N}匹配的任何字符，加上下划线