"[abc]"和"(a|b|c)"的区别

Question

"[abc]"和"(a|b|c)"的区别

regexpcre

4

对于 PCRE 正则表达式，[abc] 和 (a|b|c) 有什么区别？

- user1032531

4

相关问题使用选择分支或字符类匹配单个字符？有一些有趣的回答。 - stema

3个回答

1

（阅读格雷格的回答后）：它们是否应该被不同地评估取决于您输入到程序中的内容。根据您想要检查什么来选择。您是想检查有效字符池，还是想检查值。-有时可能看起来相同，但背后的意图可能不同。然后选择反映您意图的选项。

- kratenko

0

使用方括号的表达式在启用JIT编译时，使用PCRE会更快。它只是在位集中检查一个位，而另一个则为每个备选项重新读取字符。我正在考虑一种优化方法，可以检测这种情况，因为许多人不知道字符类可以用在方括号内，他们使用([a-z]|\s)+而不是[a-z\s]+。

- dark100

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Greg Bacon · Accepted Answer

您的问题中的模式匹配相同的文本。在实现方面，它们对应于不同的自动机和副作用（即，它们是否捕获子字符串）。

在下面的评论中，Garrett Albright 指出了微妙的区别。虽然（.| \n）匹配任何字符，但[.\n]只匹配文字点或换行符。尽管在字符类内部点不再是特殊字符，但其他字符（如-、^和]）以及序列（如[:lower:]）在字符类内部具有特殊含义。需要注意保留一个上下文中的特殊语义到另一个上下文中，但有时这是不可能的，比如在\1作为写在字符类外部的$1的过时方式的情况下。在字符类内部，\1始终匹配字符SOH。

字符类（[...]）用于匹配一组字符中的一个，而替代项（x|y）允许更一般长度不同的选择。如果您记住这些设计原则，您将倾向于看到更好的性能。正则表达式实现将源代码（例如/[abc]/）转换为有限状态自动机，通常是NFAs。我们所谓的正则表达式引擎更或多或少是协助执行这些目标状态机的簿记员。足够聪明的正则表达式编译器将为等效的正则表达式生成相同的机器码，但由于lurking exponential complexity的存在，在一般情况下这很困难和昂贵。

如果想了解正则表达式背后的理论，可以阅读Mark Dominus的“How Regexes Work”。如果想深入学习，可以考虑Peter Linz的An Introduction to Formal Languages and Automata。