Base R中的正则表达式（Regex）用于识别电子邮件地址

Question

Base R中的正则表达式（Regex）用于识别电子邮件地址

7

我正在尝试使用stringr库从一个混乱的大文件中提取电子邮件。

str_match不允许perl=TRUE，并且我无法弄清楚转义字符以使其工作。

有人能推荐一个相对强大的正则表达式，适用于下面的情况吗？

c("larry@gmail.com", "larry-sally@sally.com", "larry@sally.larry.com")->emails
"SomeRegex"->regex
str_match(emails, regex)

- toomey8

3

你最佳的"猜测"是什么正则表达式？此外，我认为你的示例应包括不想匹配的情况。我可以使用.*来匹配所有这些情况，对吗？ - Frank

如果我使用 grep("@", emails)，它会正确匹配。 - RJ-

而且，str_match 仅提取第一个匹配组。这是您想要的吗？还是您想要提取所有匹配组？ - RJ-

在 R 中，grep 通常会将多个字符串的向量与一个正则表达式进行匹配。 - hwnd

@hwnd 我的印象是这正是原帖作者想要的。 - RJ-

3个回答

4

我发现这个正则表达式对我来说更有效：

^[[:alnum:]._-]+@[[:alnum:].-]+$

在字符类中，除非连字符是最后一个字符，否则它具有特殊含义。它是一个范围运算符，例如“A-Z”。

- Ken Taylor

0

其实，我建议使用更长的正则表达式，因为上面的解决方案允许像test@test.com.这样带有尾随点的电子邮件。

isMail <- function(x){
   grepl("^[[:alnum:]._-]+@[[:alnum:].-]+$", x))
}

- z-cool

难道不应该是这样吗？"^[[:alnum:]._-]+@[[:alnum:].-]+[:alnum:]+$" - SJGD

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- IRTFM · Accepted Answer

> "^[[:alnum:].-_]+@[[:alnum:].-]+$"->regex
> str_match(emails, regex)
     [,1]                   
[1,] "larry@gmail.com"      
[2,] "larry-sally@sally.com"
[3,] "larry@sally.larry.com"

在正则表达式中，@符号不需要转义。而"."和"-"在字符类中也没有特殊意义。如果您想要添加对".com"、".co"、".edu"、".org"的需求，则需要指定该列表需要多完整。

正如M42所指出的那样，这并不是一种百分之百有效的方法。事实上，据称没有百分之百有效的方法：使用正则表达式验证电子邮件地址