正则表达式匹配DNS主机名或IP地址?

409

有没有一个正则表达式能匹配任何合法的DNS主机名或IP地址?

编写一个能够在95%的情况下工作的正则表达式很容易,但我希望得到一个经过充分测试以精确匹配最新RFC规范的DNS主机名的表达式。


1
请注意:可以确定一个字符串是否是有效的IPv4地址或有效的主机名,但不能确定一个字符串既是有效的IPv4地址又是有效的主机名。原因是:任何匹配为有效IPv4地址的字符串也可能是有效的主机名,可以通过DNS服务器解析为不同的IP地址。 - ndsvw
22个回答

588

您可以单独使用以下正则表达式,也可以将它们组合成联合OR表达式。

ValidIpAddressRegex = "^(([0-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])\.){3}([0-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])$";

ValidHostnameRegex = "^(([a-zA-Z0-9]|[a-zA-Z0-9][a-zA-Z0-9\-]*[a-zA-Z0-9])\.)*([A-Za-z0-9]|[A-Za-z0-9][A-Za-z0-9\-]*[A-Za-z0-9])$";

ValidIpAddressRegex可以匹配有效的IP地址,ValidHostnameRegex可以匹配有效的主机名。根据您使用的语言,\可能需要用\进行转义。


ValidHostnameRegex符合RFC 1123规范。最初,RFC 952指定主机名段不能以数字开头。

http://en.wikipedia.org/wiki/Hostname

RFC 952中关于主机名的原始规范要求标签不能以数字或连字符开头,也不能以连字符结尾。然而,后续规范(RFC 1123)允许主机名标签以数字开头。

Valid952HostnameRegex = "^(([a-zA-Z]|[a-zA-Z][a-zA-Z0-9\-]*[a-zA-Z0-9])\.)*([A-Za-z]|[A-Za-z][A-Za-z0-9\-]*[A-Za-z0-9])$";

3
我在这里解释:https://dev59.com/m1PTa4cB1Zd3GeqPhkF9 - 我说明以数字开头的名称也被视为有效。同时,只有一个点是有问题的。希望能获得更多反馈。 - BreakPhreak
17
你可能需要添加IPv6。OP没有指定地址的类型。(顺便说一下,它可以在这里找到:https://dev59.com/qHVD5IYBdhLWcg3wNIvc#53499) - new123456
32
在人们盲目地在他们的代码中使用此内容之前,请注意它并不完全准确。它忽略了RFC2181中的规定:“DNS本身只对可用于标识资源记录的特定标签施加一项限制。该限制与标签和完整名称的长度有关。任何一个标签的长度仅限于1到63个八位字节。完整域名的长度限制为255个八位字节(包括分隔符)。" - rouble
7
@UserControl:非拉丁文(Punycode编码)的主机名必须先转换为ASCII格式(例如éxämplè.com = xn--xmpl-loa1ab.com),然后进行验证。 - Alix Axel
8
您的主机名表达式匹配了一些无效值:我尝试使用123.456.789.0,它表示这是一个有效的主机名。 - lbarreira
显示剩余31条评论

74
smink的主机名正则表达式不遵守主机名中单个标签长度的限制。在有效的主机名中,每个标签的长度不能超过63个八位字节。
ValidHostnameRegex="^([a-zA-Z0-9]|[a-zA-Z0-9][a-zA-Z0-9\-]{0,61}[a-zA-Z0-9])\
(\.([a-zA-Z0-9]|[a-zA-Z0-9][a-zA-Z0-9\-]{0,61}[a-zA-Z0-9]))*$"
请注意,上面第一行结尾处的反斜杠是Unix shell语法,用于将长行拆分成多行,它不是正则表达式本身的一部分。
以下是仅包含正则表达式的单行代码:
^([a-zA-Z0-9]|[a-zA-Z0-9][a-zA-Z0-9\-]{0,61}[a-zA-Z0-9])(\.([a-zA-Z0-9]|[a-zA-Z0-9][a-zA-Z0-9\-]{0,61}[a-zA-Z0-9]))*$
您还应该单独检查主机名的总长度是否不超过255个字符。有关更多信息,请参考RFC-952和RFC-1123。

7
出色的主机模式。它可能取决于一个人所用语言的正则表达式实现,但对于JS而言,可以稍微调整一下使其更加简洁,而不会失去任何内容:/^[a-z\d]([a-z\d\-]{0,61}[a-z\d])?(\.[a-z\d]([a-z\d\-]{0,61}[a-z\d])?)*$/i - Semicolon
这是我想要的,但“@”符号只允许根主机名使用这个特殊字符?我在 DNS 和正则表达式方面很新 :( - fahdshaykh

35

要匹配有效的IP地址,请使用以下正则表达式:

(25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)(\.(25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)){3}

改为:

([01]?[0-9][0-9]?|2[0-4][0-9]|25[0-5])(\.([01]?[0-9][0-9]?|2[0-4][0-9]|25[0-5])){3}

解释

许多正则表达式引擎会在 OR 序列中匹配第一个可能的情况。例如,请尝试以下正则表达式:

10.48.0.200

测试

测试“好”的和“坏”的区别:


7
不要忘记在正则表达式中加上起始符号^和结束符号$,否则类似于0.0.0.999或999.0.0.0的内容也会被匹配到。 ;) - andreas
2
是的,要验证一个字符串,必须需要以 ^ 开始和 $ 结束,但如果你在文本中搜索一个 IP 地址的话,不需要使用它。 - Alban
您所指出的意外“非贪婪性”也适用于其他主机名解决方案。将此添加到您的答案中是值得的,因为其他解决方案将无法匹配完整的主机名。例如:([a-zA-Z0-9]|[a-zA-Z0-9][a-zA-Z0-9\-]{0,61}[a-zA-Z0-9])(\.([a-zA-Z0-9]|[a-zA-Z0-9][a-zA-Z0-9\-]{0,61}[a-zA-Z0-9]))*([a-zA-Z0-9][a-zA-Z0-9\-]{0,61}[a-zA-Z0-9]|[a-zA-Z0-9])(\.([a-zA-Z0-9][a-zA-Z0-9\-]{0,61}[a-zA-Z0-9])|[a-zA-Z0-9]))* - ergohack
在上面的代码中,使用+而不是*可以看到失败。 - ergohack

6

我似乎无法编辑顶部帖子,所以我会在这里添加我的答案。

关于主机名 - 简单的答案,在这个egrep示例中 - http://www.linuxinsight.com/how_to_grep_for_ip_addresses_using_the_gnu_egrep_utility.html

egrep '([[:digit:]]{1,3}\.){3}[[:digit:]]{1,3}'

尽管此案例未考虑第一位八进制数中的0值,以及大于254(IP地址)或255(网络掩码)的值。也许添加一个附加的if语句会有所帮助。
至于合法的DNS主机名,只要您仅检查Internet主机名(而不是Intranet),我编写了以下代码段,这是shell/php的混合,但应适用于任何正则表达式。
首先访问ietf网站,下载并解析合法的一级域名列表:
tld=$(curl -s http://data.iana.org/TLD/tlds-alpha-by-domain.txt |  sed 1d  | cut -f1 -d'-' | tr '\n' '|' | sed 's/\(.*\)./\1/')
echo "($tld)"

这应该为您提供了一段漂亮的re代码,用于检查顶级域名(如.com .org或.ca)的合法性。

然后根据此处找到的指南添加表达式的第一部分--http://www.domainit.com/support/faq.mhtml?category=Domain_FAQ&question=9(任何字母数字组合和“-”符号,横杠不应在八位数的开头或结尾)。

(([a-z0-9]+|([a-z0-9]+[-]+[a-z0-9]+))[.])+

然后把它们组合起来(PHP preg_match 示例):
$pattern = '/^(([a-z0-9]+|([a-z0-9]+[-]+[a-z0-9]+))[.])+(AC|AD|AE|AERO|AF|AG|AI|AL|AM|AN|AO|AQ|AR|ARPA|AS|ASIA|AT|AU|AW|AX|AZ|BA|BB|BD|BE|BF|BG|BH|BI|BIZ|BJ|BM|BN|BO|BR|BS|BT|BV|BW|BY|BZ|CA|CAT|CC|CD|CF|CG|CH|CI|CK|CL|CM|CN|CO|COM|COOP|CR|CU|CV|CX|CY|CZ|DE|DJ|DK|DM|DO|DZ|EC|EDU|EE|EG|ER|ES|ET|EU|FI|FJ|FK|FM|FO|FR|GA|GB|GD|GE|GF|GG|GH|GI|GL|GM|GN|GOV|GP|GQ|GR|GS|GT|GU|GW|GY|HK|HM|HN|HR|HT|HU|ID|IE|IL|IM|IN|INFO|INT|IO|IQ|IR|IS|IT|JE|JM|JO|JOBS|JP|KE|KG|KH|KI|KM|KN|KP|KR|KW|KY|KZ|LA|LB|LC|LI|LK|LR|LS|LT|LU|LV|LY|MA|MC|MD|ME|MG|MH|MIL|MK|ML|MM|MN|MO|MOBI|MP|MQ|MR|MS|MT|MU|MUSEUM|MV|MW|MX|MY|MZ|NA|NAME|NC|NE|NET|NF|NG|NI|NL|NO|NP|NR|NU|NZ|OM|ORG|PA|PE|PF|PG|PH|PK|PL|PM|PN|PR|PRO|PS|PT|PW|PY|QA|RE|RO|RS|RU|RW|SA|SB|SC|SD|SE|SG|SH|SI|SJ|SK|SL|SM|SN|SO|SR|ST|SU|SV|SY|SZ|TC|TD|TEL|TF|TG|TH|TJ|TK|TL|TM|TN|TO|TP|TR|TRAVEL|TT|TV|TW|TZ|UA|UG|UK|US|UY|UZ|VA|VC|VE|VG|VI|VN|VU|WF|WS|XN|XN|XN|XN|XN|XN|XN|XN|XN|XN|XN|YE|YT|YU|ZA|ZM|ZW)[.]?$/i';

    if (preg_match, $pattern, $matching_string){
    ... do stuff
    }

您可能还需要添加一个if语句来检查您正在检查的字符串是否短于256个字符-- http://www.ops.ietf.org/lists/namedroppers/namedroppers.2003/msg00964.html


1
-1 是因为它匹配虚假的 IP 地址,例如“999.999.999.999”。 - bdesham
1
尽管该情况未考虑第一个八位字节中的0值,以及大于254(IP地址)或255(子网掩码)的值。 - Alex Volkov
我看到你在回答中进行了限定,是的。我给你点了踩,因为你回答中的那部分仍然没有用处。 - bdesham

4

值得注意的是,大多数编程语言都有相应的库可以帮您完成这个任务,通常内置于标准库中。这些库可能会比四年前从 Stack Overflow 复制并遗忘的代码经常更新。当然,它们通常还会将地址解析为可用的形式,而不仅仅是匹配一堆组。

例如,在 (POSIX) C 中检测和解析 IPv4 地址:

#include <arpa/inet.h>
#include <stdio.h>

int main(int argc, char *argv[]) {
  for (int i=1; i!=argc; ++i) {
    struct in_addr addr = {0};
    printf("%s: ", argv[i]);
    if (inet_pton(AF_INET, argv[i], &addr) != 1)
      printf("invalid\n");
    else
      printf("%u\n", addr.s_addr);
  }
  return 0;
}

显然,如果您想在聊天消息中查找所有有效地址,这样的功能是行不通的。但即使在那种情况下,使用一个简单但过于热心的正则表达式来查找潜在匹配项,然后使用库来解析它们可能会更容易。

例如,在Python中:

>>> import ipaddress
>>> import re
>>> msg = "My address is 192.168.0.42; 192.168.0.420 is not an address"
>>> for maybeip in re.findall(r'\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}', msg):
...     try:
...         print(ipaddress.ip_address(maybeip))
...     except ValueError:
...         pass

2
def isValidHostname(hostname):

    if len(hostname) > 255:
        return False
    if hostname[-1:] == ".":
        hostname = hostname[:-1]   # strip exactly one dot from the right,
                                   #  if present
    allowed = re.compile("(?!-)[A-Z\d-]{1,63}(?<!-)$", re.IGNORECASE)
    return all(allowed.match(x) for x in hostname.split("."))

你能解释一下这个正则表达式吗?具体来说,(?!-)和(?<!-)是什么意思? - Scit
1
@Scit,如果您的正则表达式引擎允许使用,请确保它不以“-”字符开头或结尾。例如,来自Python来自Perl - YLearn

2

我认为这是最好的IP验证正则表达式,请检查一下!!!

^(([01]?[0-9]?[0-9]|2([0-4][0-9]|5[0-5]))\.){3}([01]?[0-9]?[0-9]|2([0-4][0-9]|5[0-5]))$

1
这适用于有效的 IP 地址:

regex = '^([0-9]|[1-9][0-9]|[1][0-9][0-9]|[2][0-5][0-5])[.]([0-9]|[1-9][0-9]|[1][0-9][0-9]|[2][0-5][0-5])[.]([0-9]|[1-9][0-9]|[1][0-9][0-9]|[2][0-5][0-5])[.]([0-9]|[1-9][0-9]|[1][0-9][0-9]|[2][0-5][0-5])$'

1
>>> my_hostname = "testhostn.ame"
>>> print bool(re.match("^(([a-zA-Z]|[a-zA-Z][a-zA-Z0-9\-]*[a-zA-Z0-9])\.)*([A-Za-z]|[A-Za-z][A-Za-z0-9\-]*[A-Za-z0-9])$", my_hostname))
True
>>> my_hostname = "testhostn....ame"
>>> print bool(re.match("^(([a-zA-Z]|[a-zA-Z][a-zA-Z0-9\-]*[a-zA-Z0-9])\.)*([A-Za-z]|[A-Za-z][A-Za-z0-9\-]*[A-Za-z0-9])$", my_hostname))
False
>>> my_hostname = "testhostn.A.ame"
>>> print bool(re.match("^(([a-zA-Z]|[a-zA-Z][a-zA-Z0-9\-]*[a-zA-Z0-9])\.)*([A-Za-z]|[A-Za-z][A-Za-z0-9\-]*[A-Za-z0-9])$", my_hostname))
True

1
"^((\\d{1,2}|1\\d{2}|2[0-4]\\d|25[0-5])\.){3}(\\d{1,2}|1\\d{2}|2[0-4]\\d|25[0-5])$"

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接