在R中按时间计算平均值

3
我每秒测量化合物的浓度。我想制作30秒和60秒的平均值。我在这里阅读了帖子,尝试了lubridatedplyr,但没有成功。我正在努力让它工作,但一直没能成功。我正在从SAS转向R,请耐心等待。
这是我的数据:
head (data)#show the first 6 rows

   Date     Time  Temp      Appb    Bppb    Cppb     Dppb    Eppb      Fppb

1 10/30/17 21:32:33 25.23 -0.469304 22.4445 35.5993 -18.4843 52.0488 -2.947340   
2 10/30/17 21:32:34 25.23 -1.255780 21.8248 34.2364 -20.9051 47.4344 -2.071230  
3 10/30/17 21:32:35 25.23 -0.769233 21.1590 30.5892 -20.9347 42.6061 -0.991607  
4 10/30/17 21:32:36 25.23 -0.874262 21.3353 25.4841 -19.6127 38.3224 -0.452383  
5 10/30/17 21:32:37 25.24 -0.819439 21.1916 21.4919 -16.5991 36.1331 -0.150002  
6 10/30/17 21:32:38 25.24 -1.895730 21.5345 18.0576 -17.2539 31.7448 -0.311064   
3个回答

4

好的,你可以采取以下措施:

data$time_bucket <- 
  as.POSIXct(round(as.numeric(as.POSIXct(paste(data$Date, data$Time), format="%m/%d/%y %H:%M:%S"))/30)*30, origin='1970-01-01')

这可能有些繁琐,但它会执行以下操作:
  1. as.POSIXct(paste(data$Date, data$Time), format="%m/%d/%y %H:%M:%S")将日期和时间列粘贴在一起创建一个“datetime”对象。
  2. as.numeric将其转换为“epoch”数字-自1970年01月01日以来的秒数。
  3. 除以30,四舍五入并乘以30-这将创建30秒的桶。所有舍入到相同数字的时间在舍入后将具有相同的“标签”。
  4. 最后使用as.POSIXct将其转换为“datetime”。
完成所有这些操作后,您只需按时间桶取平均值,例如使用dplyr
data %>% group_by(time_bucket) %>%
  summarize(mean(Temp))

希望这回答了你的问题。

1
这里有一个使用 data.tablelubridate 的方法来保证完整性。
library(data.table)
library(lubridate)

dat <- read.table(text = "Date     Time  Temp      Appb    Bppb    Cppb     Dppb    Eppb      Fppb
                          1 10/30/17 21:32:33 25.23 -0.469304 22.4445 35.5993 -18.4843 52.0488 -2.947340   
                          2 10/30/17 21:32:34 25.23 -1.255780 21.8248 34.2364 -20.9051 47.4344 -2.071230  
                          3 10/30/17 21:32:35 25.23 -0.769233 21.1590 30.5892 -20.9347 42.6061 -0.991607  
                          4 10/30/17 21:32:36 25.23 -0.874262 21.3353 25.4841 -19.6127 38.3224 -0.452383  
                          5 10/30/17 21:32:37 25.24 -0.819439 21.1916 21.4919 -16.5991 36.1331 -0.150002  
                          6 10/30/17 21:32:38 25.24 -1.895730 21.5345 18.0576 -17.2539 31.7448 -0.311064   ",
                  header = T, stringsAsFactors = F)

#convert to R date object 
dat$tme <- as.POSIXct(strptime(paste(dat$Date, dat$Time), format = "%m/%d/%y %H:%M:%S"), tz = "America/Montreal")

#convert to data.table
dat <- as.data.table(dat)

#drop Date and Time since we have an R date object now
dat <- dat[,-c(1,2)]

#result
dat[, lapply(.SD, mean), .(tme = round_date(tme, "3 seconds"))]

我将四舍五入到3秒,因为样本数据都在30秒内(与上面的答案相同)。
以下是结果:
    tme     Temp      Appb     Bppb     Cppb      Dppb     Eppb       Fppb
1: 2017-10-30 21:32:33 25.23000 -0.862542 22.13465 34.91785 -19.69470 49.74160 -2.5092850
2: 2017-10-30 21:32:36 25.23333 -0.820978 21.22863 25.85507 -19.04883 39.02053 -0.5313307
3: 2017-10-30 21:32:39 25.24000 -1.895730 21.53450 18.05760 -17.25390 31.74480 -0.3110640

就我个人而言,对于较大的数据集,我更喜欢使用data.table方法,因为它的速度快且子集和操作非常方便。


当您键入dat<-read.table...时,您是否必须写出所有数字?我的文件包含超过6500行。对于我的无知,我感到抱歉。 - Fern
没关系,我使用了你的示例数据,所以它才写成那样。根据数据格式,你可以直接将原始数据读入R中。例如,如果你有一个.csv/.txt文件,你可以使用data.table包中的fread()函数,这个函数非常快。对于MS Excel文件,有xlsx包中的read_xlsx函数。如果你的数据在线上,你也可以通过API调用来读取数据。 - Gautam
谢谢。这是我一直在做的事情。 数据 <- read.csv(file.choose(), header=TRUE) #as.is 读取时间 附加(数据) 数据 头(数据)#显示前6行 str(数据)#显示数据类型 - Fern

0

这里是另一种使用 xts 中的 period.apply 的解决方案:

library(lubridate)
library(xts)

data_ts = as.xts(data[-c(1:2)], mdy_hms(paste(data$Date, data$Time)))

ep = endpoints(data_ts, 'seconds', k = 30)

period.apply(data_ts, ep, FUN = mean)

结果:

                        Temp      Appb     Bppb     Cppb      Dppb    Eppb      Fppb
2017-10-30 21:32:38 25.23333 -1.013958 21.58162 27.57642 -18.96497 41.3816 -1.153938

由于您的所有样本数据都在30秒内,因此每列只有一个平均值。为了验证我的答案是否正确,您可以尝试2秒钟的平均值:

test_ep = endpoints(data_ts, 'seconds', k = 2)

period.apply(data_ts, test_ep, FUN = mean)

结果:

                      Temp       Appb     Bppb    Cppb     Dppb     Eppb       Fppb
2017-10-30 21:32:33 25.230 -0.4693040 22.44450 35.5993 -18.4843 52.04880 -2.9473400
2017-10-30 21:32:35 25.230 -1.0125065 21.49190 32.4128 -20.9199 45.02025 -1.5314185
2017-10-30 21:32:37 25.235 -0.8468505 21.26345 23.4880 -18.1059 37.22775 -0.3011925
2017-10-30 21:32:38 25.240 -1.8957300 21.53450 18.0576 -17.2539 31.74480 -0.3110640

数据:

data = read.table(text = "   Date     Time  Temp      Appb    Bppb    Cppb     Dppb    Eppb      Fppb
                  1 10/30/17 21:32:33 25.23 -0.469304 22.4445 35.5993 -18.4843 52.0488 -2.947340   
                  2 10/30/17 21:32:34 25.23 -1.255780 21.8248 34.2364 -20.9051 47.4344 -2.071230  
                  3 10/30/17 21:32:35 25.23 -0.769233 21.1590 30.5892 -20.9347 42.6061 -0.991607  
                  4 10/30/17 21:32:36 25.23 -0.874262 21.3353 25.4841 -19.6127 38.3224 -0.452383  
                  5 10/30/17 21:32:37 25.24 -0.819439 21.1916 21.4919 -16.5991 36.1331 -0.150002  
                  6 10/30/17 21:32:38 25.24 -1.895730 21.5345 18.0576 -17.2539 31.7448 -0.311064", 
                  header = TRUE, stringsAsFactors = FALSE)

谢谢。我实际上已经让它运行起来了,除了数据部分之外。我的数据集包含6500行。我不明白是否必须编写每个单独的数据点。 - Fern

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接