在read.table/read.csv的colClasses参数中指定自定义日期格式

110

问题:

在使用read.table/read.csv的colClasses参数时,有没有一种方法可以指定日期格式?

(我知道我可以在导入后进行转换,但是对于像这样具有许多日期列的情况,在导入步骤中完成会更容易)


示例:

我有一个以%d/%m/%Y格式显示日期列的 .csv 文件。

dataImport <- read.csv("data.csv", colClasses = c("factor","factor","Date"))

这种方式得出的转换结果是错误的。例如,15/07/2008 将变成 0015-07-20


可复现的代码:

data <- 
structure(list(func_loc = structure(c(1L, 2L, 3L, 3L, 3L, 3L, 
3L, 4L, 4L, 5L), .Label = c("3076WAG0003", "3076WAG0004", "3076WAG0007", 
"3076WAG0009", "3076WAG0010"), class = "factor"), order_type = structure(c(3L, 
3L, 1L, 1L, 1L, 1L, 2L, 2L, 3L, 1L), .Label = c("PM01", "PM02", 
"PM03"), class = "factor"), actual_finish = structure(c(4L, 6L, 
1L, 2L, 3L, 7L, 1L, 8L, 1L, 5L), .Label = c("", "11/03/2008", 
"14/08/2008", "15/07/2008", "17/03/2008", "19/01/2009", "22/09/2008", 
"6/09/2007"), class = "factor")), .Names = c("func_loc", "order_type", 
"actual_finish"), row.names = c(NA, 10L), class = "data.frame")


write.csv(data,"data.csv", row.names = F)                                                        

dataImport <- read.csv("data.csv")
str(dataImport)
dataImport

dataImport <- read.csv("data.csv", colClasses = c("factor","factor","Date"))
str(dataImport)
dataImport

这是输出的样式:

代码输出


一个不太正规的方法是创建自己的 read.table 版本,并添加一个 format 参数,该参数传递给 as.Date。虽然我想不出更好的方法,但如果有的话,我也不会感到惊讶。 - joran
4个回答

170

你可以编写自己的函数,接受一个字符串并使用你想要的格式将其转换为日期,然后使用 setAs 将其设置为 as 方法。然后,你可以将自己的函数作为 colClasses 的一部分使用。

尝试一下:

setAs("character","myDate", function(from) as.Date(from, format="%d/%m/%Y") )

tmp <- c("1, 15/08/2008", "2, 23/05/2010")
con <- textConnection(tmp)

tmp2 <- read.csv(con, colClasses=c('numeric','myDate'), header=FALSE)
str(tmp2)

如果需要的话,修改代码以适应你的数据。

编辑 ---

您可能希望首先运行 setClass('myDate')来避免警告(您可以忽略警告,但如果您经常这样做,这可能会变得很烦人,而这是一个简单的调用,可以消除它)。


4
请注意,根据这个问题,您可能会收到“没有定义类'myDate'”的警告。 - Danny D'Amours
1
setMethod('myDate') 应该做什么?运行它只会给我一个错误... - Josh O'Brien
1
@JoshO'Brien,抱歉应该是 setClass (已经修正)。它的作用是防止 setAs 发出有关 'myDate' 不存在为类的警告。这个警告是无害的,并且一切仍然正常工作,但设置类意味着您甚至不会看到警告。 - Greg Snow
是将其保存为字符,然后将列转换为日期,还是按上述方法执行? - MySchizoBuddy
1
@MySchizoBuddy,如果您只有一个日期列,并且只需执行一次,则可能无论您采用哪种方式都没有关系。但是,如果您的数据集中有多个日期列,则我认为采用这种方法可能比在读取后更改每个列要简单。 - Greg Snow
1
对于像我一样希望在data.table::fread中实现它的人,fread并没有在其转换中实现日期类型,因此在此时编写的fread仍无法工作。 - jks612

25

如果您只想更改一种日期格式,那么您可以使用Defaults包来更改as.Date.character中的默认格式。

library(Defaults)
setDefaults('as.Date.character', format = '%d/%M/%Y')
dataImport <- read.csv("data.csv", colClasses = c("factor","factor","Date"))
str(dataImport)
## 'data.frame':    10 obs. of  3 variables:
##  $ func_loc     : Factor w/ 5 levels "3076WAG0003",..: 1 2 3 3 3 3 3 4 4 5
##  $ order_type   : Factor w/ 3 levels "PM01","PM02",..: 3 3 1 1 1 1 2 2 3 1
##  $ actual_finish: Date, format: "2008-10-15" "2009-10-19" NA "2008-10-11" ...

我认为@Greg Snow的回答更好,因为它不会改变一个经常使用的函数的默认行为。


8

如果您需要时间:

setClass('yyyymmdd-hhmmss')
setAs("character","yyyymmdd-hhmmss", function(from) as.POSIXct(from, format="%Y%m%d-%H%M%S"))
d <- read.table(colClasses="yyyymmdd-hhmmss", text="20150711-130153")
str(d)
## 'data.frame':    1 obs. of  1 variable:
## $ V1: POSIXct, format: "2015-07-11 13:01:53"

2

很久以前,与此同时,Hadley Wickham已经解决了这个问题。所以现在的解决方案被简化为一行代码:

Original Answer翻译成"最初的回答"

library(readr)
data <- read_csv("data.csv", 
                  col_types = cols(actual_finish = col_datetime(format = "%d/%m/%Y")))

也许我们甚至想要摆脱不必要的东西:最初的回答。
data <- as.data.frame(data)

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接