如何查找监测位置的起始和结束日期

3
我有来自NCDC的气象数据集,每个站点都有30到70年的每小时观测记录。每条记录包括天气站的ID、纬度、经度和海拔高度。一个站点可以在70年内多次移动,但不会更改站点名称或ID。我想制作一个“站点历史”列表,显示不同位置的变化,这些变化由纬度、经度和/或海拔高度的变化所指示(lat,lon,elev)。我曾经编写了运行良好的R代码,直到我发现一个站点多次移动后返回到旧位置。这打破了我的R代码。
一个站点的数据大约有77万行和35列。我使用data.table。
简化的示例数据集有两个站点“A”和“B”:
require("data.table")   # ver 1.9.5
DT=data.table(site=c(rep("A",8),rep("B",4)),
                 date=c(seq(from=as.POSIXct("2014-03-01",tz="GMT"), by="day", length.out=8),
                            seq(from=as.POSIXct("2014-07-01",tz="GMT"), by="day", length.out=4)),
                 lat=c(rep(30.1,3),rep(30.2,3),rep(30.1,2),rep(40.3,2),rep(40.4,2)),
                 lon=rep(50.7,12),
                 elev=c(35.0,35,36,36,35,35,35,35,51,52,52,52),
                 x=as.numeric(1:12))   # x is some meteorological data
setkey(DT,site,date)
DT
#    site                date  lat  lon elev  x
#  1:    A 2014-03-01 01:00:00 30.1 50.7   35  1
#  2:    A 2014-03-02 01:00:00 30.1 50.7   35  2
#  3:    A 2014-03-03 01:00:00 30.1 50.7   36  3
#  4:    A 2014-03-04 01:00:00 30.2 50.7   36  4
#  5:    A 2014-03-05 01:00:00 30.2 50.7   35  5
#  6:    A 2014-03-06 01:00:00 30.2 50.7   35  6
#  7:    A 2014-03-07 01:00:00 30.1 50.7   35  7
#  8:    A 2014-03-08 01:00:00 30.1 50.7   35  8
#  9:    B 2014-07-01 02:00:00 40.3 50.7   51  9
# 10:    B 2014-07-02 02:00:00 40.3 50.7   52 10
# 11:    B 2014-07-03 02:00:00 40.4 50.7   52 11
# 12:    B 2014-07-04 02:00:00 40.4 50.7   52 12

每个站点的唯一位置列表如下:
DT.loc <- unique(DT[,.(site,lat,lon,elev)])
DT.loc
#    site  lat  lon elev
# 1:    A 30.1 50.7   35
# 2:    A 30.1 50.7   36
# 3:    A 30.2 50.7   36
# 4:    A 30.2 50.7   35
# 5:    B 40.3 50.7   51
# 6:    B 40.3 50.7   52
# 7:    B 40.4 50.7   52

这大部分是我需要的,但是请注意DT行7-8中站点“A”返回到第一个位置。
所需输出是每个位置观测期间的第一个和最后一个日期的列表。
#    site          date.first           date.last  lat  lon elev
# 1:    A 2014-03-01 01:00:00 2014-03-02 01:00:00 30.1 50.7   35
# 2:    A 2014-03-03 01:00:00 2014-03-03 01:00:00 30.1 50.7   36
# 3:    A 2014-03-04 01:00:00 2014-03-04 01:00:00 30.2 50.7   36
# 4:    A 2014-03-05 01:00:00 2014-03-06 01:00:00 30.2 50.7   35
# 5:    A 2014-03-07 01:00:00 2014-03-08 01:00:00 30.1 50.7   35
# 6:    B 2014-07-01 02:00:00 2014-07-01 02:00:00 40.3 50.7   51
# 7:    B 2014-07-02 02:00:00 2014-07-02 02:00:00 40.3 50.7   52
# 8:    B 2014-07-03 02:00:00 2014-07-04 02:00:00 40.4 50.7   52

我最初有以下代码来生成类似的列表,但它没有识别返回到旧位置的情况。

# find first occurence of each location. 
# This requires DT to be keyed on site,lat,lon,elev,date
setkey(DT,site,lat,lon,elev,date)
DT.loc.first <- DT[DT.loc, mult="first", which=TRUE]
# find last occurence of each location
DT.loc.last <- DT[DT.loc, mult="last", which=TRUE]
# get first rows and select columns for history table
DT.hist <- DT[DT.loc.first, .(site,date.first=date,lat,lon,elev)]
# add date from last row for location
DT.hist[, date.last:=DT[DT.loc.last,date]]
# rearrange and sort the history table
DT.hist <- DT.hist[,.(site,date.first,date.last,lat,lon,elev)]
setkey(DT.hist,site,date.first)
DT.hist
#    site          date.first           date.last  lat  lon elev
# 1:    A 2014-03-01 01:00:00 2014-03-08 01:00:00 30.1 50.7   35
# 2:    A 2014-03-03 01:00:00 2014-03-03 01:00:00 30.1 50.7   36
# 3:    A 2014-03-04 01:00:00 2014-03-04 01:00:00 30.2 50.7   36
# 4:    A 2014-03-05 01:00:00 2014-03-06 01:00:00 30.2 50.7   35
# 5:    B 2014-07-01 02:00:00 2014-07-01 02:00:00 40.3 50.7   51
# 6:    B 2014-07-02 02:00:00 2014-07-02 02:00:00 40.3 50.7   52
# 7:    B 2014-07-03 02:00:00 2014-07-04 02:00:00 40.4 50.7   52

第一个位置的date.last实际上是第一个位置的第二个职业的date.last,并且应该有一行单独显示(在上面的第4行之后),因为“A”站实际上有5个观测周期。

我该如何创建所需的站点历史记录,在每个位置的连续时间段中具有第一个和最后一个日期?

1个回答

1

在 Khashaa 的回答下,Arun 提供了一个优雅的答案:

# making use of DT's sort order on site,date:
DT.hist <- DT[, .(date.first=date[1L], date.last=date[.N]),
              by=.(rleid(site,lat,lon,elev),site,lat,lon,elev)]

# select columns and set sort key of result
DT.hist <- DT.hist[,.(date.last,lat,lon,elev),keyby=.(site,date.first)]
DT.hist
#    site          date.first           date.last  lat  lon elev
# 1:    A 2014-03-01 01:00:00 2014-03-02 01:00:00 30.1 50.7   35
# 2:    A 2014-03-03 01:00:00 2014-03-03 01:00:00 30.1 50.7   36
# 3:    A 2014-03-04 01:00:00 2014-03-04 01:00:00 30.2 50.7   36
# 4:    A 2014-03-05 01:00:00 2014-03-06 01:00:00 30.2 50.7   35
# 5:    A 2014-03-07 01:00:00 2014-03-08 01:00:00 30.1 50.7   35
# 6:    B 2014-07-01 02:00:00 2014-07-01 02:00:00 40.3 50.7   51
# 7:    B 2014-07-02 02:00:00 2014-07-02 02:00:00 40.3 50.7   52
# 8:    B 2014-07-03 02:00:00 2014-07-04 02:00:00 40.4 50.7   52

这将创建一个历史表,而不修改DT或更改DT的键。在by=中干净地添加site、lat、lon、elev会将这些列清晰地添加到输出中,即使它们不会改变分组(对rleid来说是冗余的)。
另外,在by=中不使用site、lat、lon、elev:
DT.hist2 <- DT[, .(date.first=date[1L], date.last=date[.N],
               lat=lat[1L], lon=lon[1L], elev=elev[1L]), 
               by=.(rleid(site,lat,lon,elev))]

但这样更加繁琐,也不易于阅读。

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接