从tzdata中提取历史闰秒

20

有没有一种方法可以从大多数Linux发行版上分发的时区数据库中提取历史闰秒的瞬间?我正在寻找Python解决方案,但任何在命令行上运行的东西都可以。

我的用例是将GPS时间(基本上是自1980年第一颗GPS卫星启动以来的秒数)转换为UTC或本地时间。 UTC会不时进行闰秒调整,而GPS时间会线性增加。这相当于在UTC和TAI之间进行转换。 TAI也忽略闰秒,因此TAI和GPS时间应始终具有相同的偏移量。 在工作中,我们使用GPS时间作为全球天文观测同步的时间标准。

我有一些可用的功能,可以在GPS时间和UTC之间进行转换,但是我必须硬编码一个闰秒表,我从这里获取(文件tzdata2013xx.tar.gz包含一个名为leapseconds的文件)。每隔几年,当宣布新的闰秒时,我必须手动更新此文件。我希望能够从标准的tzdata中获取此信息,该信息会通过系统更新自动更新多次每年。

我相信这些信息隐藏在/usr/share/zoneinfo/的某些二进制文件中。我已经使用struct.unpackman tzfile提供了一些格式方面的信息)提取了其中的一些信息,但我从未完全使其正常工作。是否有任何标准软件包可以访问此信息?我知道pytz可以从相同的数据库中获取标准DST信息,但它无法访问闰秒。我还发现了tai64n,但查看其源代码后,发现它只包含一个硬编码的表格。

编辑

受steveha的回答和pytz/tzfile.py中的一些代码启发,我最终得到了一个可行的解决方案(在py2.5和py2.7上测试通过):

from struct import unpack, calcsize
from datetime import datetime

def print_leap(tzfile = '/usr/share/zoneinfo/right/UTC'):
    with open(tzfile, 'rb') as f:
        # read header
        fmt = '>4s c 15x 6l'
        (magic, format, ttisgmtcnt, ttisstdcnt,leapcnt, timecnt,
            typecnt, charcnt) =  unpack(fmt, f.read(calcsize(fmt)))
        assert magic == 'TZif'.encode('US-ASCII'), 'Not a timezone file'
        print 'Found %i leapseconds:' % leapcnt

        # skip over some uninteresting data
        fmt = '>%(timecnt)dl %(timecnt)dB %(ttinfo)s %(charcnt)ds' % dict(
            timecnt=timecnt, ttinfo='lBB'*typecnt, charcnt=charcnt)
        f.read(calcsize(fmt))

        #read leap-seconds
        fmt = '>2l'
        for i in xrange(leapcnt):
            tleap, nleap = unpack(fmt, f.read(calcsize(fmt)))
            print datetime.utcfromtimestamp(tleap-nleap+1)

带有结果

In [2]: print_leap()
Found 25 leapseconds:
1972-07-01 00:00:00
1973-01-01 00:00:00
1974-01-01 00:00:00
...
2006-01-01 00:00:00
2009-01-01 00:00:00
2012-07-01 00:00:00

虽然这解决了我的问题,但我可能不会采用这种解决方案。相反,我将根据Matt Johnson的建议将leap-seconds.list与我的代码一起包含。这似乎是作为tzdata源使用的权威列表,并且可能每年由NIST更新两次。这意味着我必须手动更新,但是这个文件很容易解析并包括一个到期日期(tzdata似乎缺少此信息)。

2
我知道它们也被发布在这里,我也知道它们是用zic编译的,因此它们应该在tzdata更新中。正如您注意到的那样,在tzfile中显示为tzh_leapcnt,因此您可能可以通过那种方式获得它。目前我没有更直接的答案给你。也许其他人会知道。 - Matt Johnson-Pint
1
@mattexx 别问我为什么,但是 tzdata 的二进制文件确实包含闰秒信息,可能正是为了进行我感兴趣的时间转换。维护这个数据库的人在记录历史时间定义变化方面非常细致,有时每年提供更新达10次,因为一些疯狂的独裁者将夏令时调整了一天。跟踪闰秒要容易得多,因为 IERS 定期发布公告,通常提前半年宣布。 - Bas Swinckels
1
手册有点模糊,但是看着我的工作代码(这是从 pytz/tzfile.py 直接复制/粘贴的)和一些随机的 tzfile.h,似乎你缺少了 charcnt 字节(对于这个文件确实是 4)。 - Bas Swinckels
是的,就是这样。我甚至在手册页中找到了我忽略的文本,它记录了这一点。为了将来查看此答案的人着想,我正在更新我的回答。 - steveha
1
这是关于编程的内容,请将以下英文文本翻译成中文。请仅返回已翻译的文本:无关:这里有一个关于如何在Unix上使用“正确”的时区将GPS时间转换为UTC而不需要显式提取闰秒的方法的链接(https://dev59.com/q1wX5IYBdhLWcg3wwxxS)。 - jfs
显示剩余3条评论
2个回答

10

我刚刚执行了man 5 tzfile命令,计算出了一个可用于查找闰秒信息的偏移量,然后读取了闰秒信息。

您可以取消注释“DEBUG:”打印语句,以查看它在文件中发现的更多信息。

编辑:程序已更新为正确版本。它现在使用文件/usr/share/zoneinfo/right/UTC,并找到了要打印的闰秒。

原始程序没有跳过时区缩写字符,这些字符在手册页中有文档记录,但有点难以发现(“... tt_abbrind 用作索引,指向在文件中跟随 ttinfo 结构的时区缩写字符数组。”)。

import datetime
import struct

TZFILE_MAGIC = 'TZif'.encode('US-ASCII')

def leap_seconds(f):
    """
    Return a list of tuples of this format: (timestamp, number_of_seconds)
        timestamp: a 32-bit timestamp, seconds since the UNIX epoch
        number_of_seconds: how many leap-seconds occur at timestamp

    """
    fmt = ">4s c 15x 6l"
    size = struct.calcsize(fmt)
    (tzfile_magic, tzfile_format, ttisgmtcnt, ttisstdcnt, leapcnt, timecnt,
        typecnt, charcnt) =  struct.unpack(fmt, f.read(size))
    #print("DEBUG: tzfile_magic: {} tzfile_format: {} ttisgmtcnt: {} ttisstdcnt: {} leapcnt: {} timecnt: {} typecnt: {} charcnt: {}".format(tzfile_magic, tzfile_format, ttisgmtcnt, ttisstdcnt, leapcnt, timecnt, typecnt, charcnt))

    # Make sure it is a tzfile(5) file
    assert tzfile_magic == TZFILE_MAGIC, (
            "Not a tzfile; file magic was: '{}'".format(tzfile_magic))

    # comments below show struct codes such as "l" for 32-bit long integer
    offset = (timecnt*4  # transition times, each "l"
        + timecnt*1  # indices tying transition time to ttinfo values, each "B"
        + typecnt*6  # ttinfo structs, each stored as "lBB"
        + charcnt*1)  # timezone abbreviation chars, each "c"

    f.seek(offset, 1) # seek offset bytes from current position

    fmt = '>{}l'.format(leapcnt*2)
    #print("DEBUG: leapcnt: {}  fmt: '{}'".format(leapcnt, fmt))
    size = struct.calcsize(fmt)
    data = struct.unpack(fmt, f.read(size))

    lst = [(data[i], data[i+1]) for i in range(0, len(data), 2)]
    assert all(lst[i][0] < lst[i+1][0] for i in range(len(lst)-1))
    assert all(lst[i][1] == lst[i+1][1]-1 for i in range(len(lst)-1))

    return lst

def print_leaps(leap_lst):
    # leap_lst is tuples: (timestamp, num_leap_seconds)
    for ts, num_secs in leap_lst:
        print(datetime.datetime.utcfromtimestamp(ts - num_secs+1))

if __name__ == '__main__':
    import os
    zoneinfo_fname = '/usr/share/zoneinfo/right/UTC'
    with open(zoneinfo_fname, 'rb') as f:
        leap_lst = leap_seconds(f)
    print_leaps(leap_lst)

一个人可以拥有一个自1980年以来闰秒数量的文件,然后每当根据您的“leap_second”函数发生闰秒时,就可以增加该数字。在Ubuntu上,在tzdata软件包的launchpad页面上,可以下载旧版本的软件包。 - Ramchandra Apte
谢谢Steveha,这正是我在寻找的解决方案。我现在没有时间,我会在接下来的几天里仔细研究你的解决方案。 - Bas Swinckels
文件/usr/share/zoneinfo/right/UTC包含闰秒。在该文件上运行您的代码会导致断言错误,我猜测是因为您的f.seek偏移了几个字节。将其更改为f.seek(offset + 4, 1)似乎可以解决这个问题。我在我的问题中添加了一些可行的代码。感谢您指引我正确的方向。 - Bas Swinckels
@BasSwinckels: datetime()不支持闰秒。所有闰秒在UTC时间下都是23:59:60(迄今为止)即,您应该显示2012-06-30 23:59:60Z而不是2012-07-01 00:00:00Z,那是一个不同的时间点。 - jfs
@BasSwinckels:我使用@steveha的leap_seconds()函数编写了utc_to_tai()函数,该函数允许计算两个事件之间经过的SI秒数,如果它们的posix时间戳已知(通常,“自纪元以来的秒数”不是真正的经过的SI秒数,因为有闰秒插入)。 - jfs

3

PyEphem拥有一个delta_t函数,可返回地球时和世界时之间的差异(以秒为单位)。您可以从中减去32.184以获取闰秒(参考)。

import ephem, datetime
ephem.delta_t(datetime.datetime.now()) - 32.184
Out[2]: 35.01972996360122

6
谢谢提供的链接,但是根据查看PyEphem的源代码,它似乎从libastro获取闰秒信息。看一下那个源代码,里面也有一个硬编码表格。最新版本好像是2011年的,已经过时了,因为最后一个闰秒是在2012年7月!这就是为什么我想使用直接基于tzdata的东西,因为它每年会被积极更新几次。 - Bas Swinckels
1
这个计算实际上给出的是TT-UT1的差异,而不是TT-UTC。 - JPaget

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接