为了进行复制,我喜欢保留一个包含每个数据框元数据的代码库。 数据代码库是:
一个书面或计算机化的列表,提供将包括在数据库中的变量的清晰而全面的描述。 Marczyk等人(2010年)
我喜欢记录变量的以下属性:
- 名称
- 描述(标签、格式、刻度等)
- 来源(例如世界银行)
- 来源媒体(url和访问日期、CD和ISBN等)
- 磁盘上源数据的文件名(有助于合并代码库时)
- 备注
例如,这是我正在实施的用于记录具有8个变量的数据框mydata1中变量的方式:
code.book.mydata1 <- data.frame(variable.name=c(names(mydata1)),
label=c("Label 1",
"State name",
"Personal identifier",
"Income per capita, thousand of US$, constant year 2000 prices",
"Unique id",
"Calendar year",
"blah",
"bah"),
source=rep("unknown",length(mydata1)),
source_media=rep("unknown",length(mydata1)),
filename = rep("unknown",length(mydata1)),
notes = rep("unknown",length(mydata1))
)
我为每个读取的数据集编写不同的代码手册。当我合并数据框时,我还将合并其相关联的代码手册的相关方面,以记录最终数据库。我通过复制粘贴上面的代码并更改参数来实现这一点。