将字符向量转换为POSIXct/POSIXlt的方法:as.POSIXct/as.POSIXlt和strptime的区别

107

我在stackoverflow上看到过很多关于如何将字符向量转换为日期时间类的问题。我经常看到两种方法,即strptime和as.POSIXct/as.POSIXlt方法。我查看了这两个函数,但是不清楚它们之间的区别。

strptime

function (x, format, tz = "") 
{
    y <- .Internal(strptime(as.character(x), format, tz))
    names(y$year) <- names(x)
    y
}
<bytecode: 0x045fcea8>
<environment: namespace:base>

as.POSIXct

function (x, tz = "", ...) 
UseMethod("as.POSIXct")
<bytecode: 0x069efeb8>
<environment: namespace:base>

as.POSIXlt

function (x, tz = "", ...) 
UseMethod("as.POSIXlt")
<bytecode: 0x03ac029c>
<environment: namespace:base>

做一个微基准测试以查看是否存在性能差异:

library(microbenchmark)
Dates <- sample(c(dates = format(seq(ISOdate(2010,1,1), by='day', length=365), format='%d-%m-%Y')), 5000, replace = TRUE)
df <- microbenchmark(strptime(Dates, "%d-%m-%Y"), as.POSIXlt(Dates, format = "%d-%m-%Y"), times = 1000)

Unit: milliseconds
                                    expr      min       lq   median       uq      max
1 as.POSIXlt(Dates, format = "%d-%m-%Y") 32.38596 33.81324 34.78487 35.52183 61.80171
2            strptime(Dates, "%d-%m-%Y") 31.73224 33.22964 34.20407 34.88167 52.12422

strptime 似乎略微更快。那是为什么呢?为什么会有两个类似的函数,还是我错过了它们之间的区别?


4
如果你想查看在调用字符向量时as.POSIXctas.POSIXlt被调用的代码,请分别查看as.POSIXct.defaultas.POSIXlt.character - Joshua Ulrich
2个回答

173

这些函数各有不同的作用。

首先,有两种内部日期/时间实现:POSIXct,它存储自UNIX纪元以来的秒数(+其他数据),以及POSIXlt ,它存储一系列日,月,年,小时,分钟,秒等信息。

strptime是一个将字符向量(格式多样)直接转换为POSIXlt 格式的函数。

as.POSIXlt将各种数据类型转换为POSIXlt。它试图变得智能并做出合理的事情-在字符的情况下,它作为strptime 的包装器。

as.POSIXct将各种数据类型转换为POSIXct。它也试图变得智能并做出合理的事情-在字符的情况下,它首先运行strptime,然后从POSIXlt 转换为POSIXct

strptime更快是有道理的,因为strptime 仅处理字符输入,而其他函数则尝试从输入类型中确定使用哪种方法。它还应该更安全,因为处理意外数据时会出现错误,而不是尝试做可能不是您想要的智能事情。


1
很棒的回答。在编译用于建模或数据可视化目的的数据方面,是否有共识认为哪种做法是最佳实践? - dre

30

有两种POSIXt类型,即POSIXct和POSIXlt。 "ct"代表日历时间,它存储自原点以来的秒数。 "lt"或本地时间,将日期保存为时间属性列表(例如“小时”和“月”)。 请尝试以下示例:

date.hour=strptime("2011-03-27 01:30:00", "%Y-%m-%d %H:%M:%S")

date=c("26/10/2016")

time=c("19:51:30")

day<-paste(date,"T", time)

day.time1=as.POSIXct(day,format="%d/%m/%Y T %H:%M:%S",tz="Europe/Paris")

day.time1

day.time1$year

day.time2=as.POSIXlt(day,format="%d/%m/%Y T %H:%M:%S",tz="Europe/Paris")

day.time2

day.time2$year

太棒了!attributes()也很有趣。也许你应该加上这个;-) - Christoph

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接