如何将单个Apache日志条目解析为Python对象

Question

如何将单个Apache日志条目解析为Python对象

3

我正在编写我的第一个Python脚本，试图将Apache日志解析为可访问的对象，但无法使其工作。

我尝试使用这个示例（运行Python 2.7），并只想让它与单个日志条目一起工作。

以下是我的代码：

import re
from collections import namedtuple

format_pat= re.compile( 
    r"(?P<host>[\d\.]+)\s" 
    r"(?P<identity>\S*)\s" 
    r"(?P<user>\S*)\s"
    r"\[(?P<time>.*?)\]\s"
    r'"(?P<request>.*?)"\s'
    r"(?P<status>\d+)\s"
    r"(?P<bytes>\S*)\s"
    r'"(?P<referer>.*?)"\s'
    r'"(?P<user_agent>.*?)"\s*' 
)

Access = namedtuple('Access',
    ['host', 'identity', 'user', 'time', 'request',
    'status', 'bytes', 'referer', 'user_agent'] )

# my entry
log = '2001:470:1f14:169:15f3:824f:8a61:7b59 - ABC-15414 [14/Nov/2012:09:32:31 +0100] "POST /setConnectionXml HTTP/1.1" 200 4 "-" "-" 102356'

match= format_pat.match(log) 
print match

if match:
   Access( **match.groupdict() )
   print Access

我不确定我做错了什么，但是match返回的是none，而不是我希望得到的对象。

有人能给我一个提示吗？

- frequent

2个回答

1

你将需要使用format_pat.search(log)

。

In [6]: m = format_pat.search(log)

In [7]: m.groupdict()
Out[7]: 
{'bytes': '4',
 'host': '59',
 'identity': '-',
 'referer': '-',
 'request': 'POST /setConnectionXml HTTP/1.1',
 'status': '200',
 'time': '14/Nov/2012:09:32:31 +0100',
 'user': 'ABC-15414',
 'user_agent': '-'}

- msvalkon

请查看@MartijnPieters的答案，我的答案没有考虑正则表达式的问题。 - msvalkon

1

请记住，re.match从字符串的开头开始匹配，并在第一个正则表达式失败时返回None。re.search将遍历整个字符串并返回匹配项。有关更多信息，请查看文档，这可能仍然与您相关。 - msvalkon

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Martijn Pieters · Accepted Answer

你的host条目只匹配数字和点（IPv4地址），但你发布的日志条目示例是IPv6地址。调整你的模式以允许该格式（因此要么匹配数字和点，要么匹配十六进制字符和冒号）：

format_pat= re.compile( 
    r"(?P<host>(?:[\d\.]|[\da-fA-F:])+)\s" 
    r"(?P<identity>\S*)\s" 
    r"(?P<user>\S*)\s"
    r"\[(?P<time>.*?)\]\s"
    r'"(?P<request>.*?)"\s'
    r"(?P<status>\d+)\s"
    r"(?P<bytes>\S*)\s"
    r'"(?P<referer>.*?)"\s'
    r'"(?P<user_agent>.*?)"\s*' 
)

经过这样的调整，您的示例将匹配：

>>> format_pat.match(log).groupdict()
{'status': '200', 'bytes': '4', 'request': 'POST /setConnectionXml HTTP/1.1', 'host': '2001:470:1f14:169:15f3:824f:8a61:7b59', 'referer': '-', 'user': 'ABC-15414', 'time': '14/Nov/2012:09:32:31 +0100', 'identity': '-', 'user_agent': '-'}