了解 R 正则表达式中的 lookahead。

Question

了解 R 正则表达式中的 lookahead。

10

我试图使用多个lookahead来在R Perl类型的正则表达式中使用grep模拟AND运算符。但是，我不理解我看到的输出。以下是一个示例代码块：

a <- c("abcxyz", "abcdef", "defxyz", "abcdefxyz", "xyzdefabc")
grep("(?<=abc)(?=xyz)", a, ignore.case=TRUE, perl=TRUE)  # returns 1
grep("(?=abc)(?=xyz)", a, ignore.case=TRUE, perl=TRUE)  # returns integer(0)

第二行表明字符串中的位置在abc和xyz之间，并匹配'abcxyz'。为什么它不匹配'abcdefxyz'？

在第三行中，我尝试输出1、4和5，但返回未找到。为什么会发生这种情况？

我正在使用下面的另一种解决方案，但我想使用lookaheads来处理多个lookaheads时的顺序。

grep("abc.*xyz|xyz.*abc", a, ignore.case=TRUE, perl=TRUE)  # returns 1 4 5 as expected

- Naumz

在第二个选项中，您使用了?=而不是?<=。也许您需要使用grep("(?<=abc).*(?=xyz)", a, ignore.case=TRUE, perl=TRUE)。 - akrun

@akrun 我试图避免同时使用向后和向前查找，因为它会强制排序，而我不想要。我已经编辑了示例代码以使其更清晰。我对这个例子的期望是：http://www.rexegg.com/regex-lookarounds.html - Naumz

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Wiktor Stribiżew · Accepted Answer

(?<=abc)(?=xyz) 正则表达式只匹配位于 abc 和 xyz 之间的位置（字符串中的位置）。它会在 abcxyz 中找到匹配，但不会在 abcdefxyz 中找到匹配，因为 xyz 不是紧跟着 abc。

(?=abc)(?=xyz) 模式永远不会匹配任何内容，因为它匹配的是一个字符串中后面跟着一个应该同时等于 abc 和 xyz 的三个字母序列的位置，这是不可能的。

你要找的是

^(?=.*abc)(?=.*xyz)

或者，为了支持多行输入，请添加DOTALL修改器(?s)（使.也可以匹配换行符）：

(?s)^(?=.*abc)(?=.*xyz)

这些将匹配一个字符串，该字符串以任何顺序同时包含abc和xyz。

参见R演示：

a <- c("abcxyz", "abcdef", "defxyz", "abcdefxyz", "xyzdefabc")
grep("^(?=.*abc)(?=.*xyz)", a, ignore.case=TRUE, perl=TRUE)
## => [1] 1 4 5