我想使用 基础R(不使用任何特定软件包)表达以下SQL查询:
select month, day, count(*) as count, avg(dep_delay) as avg_delay
from flights
group by month, day
having count > 1000
它选择繁忙日(超过1000次航班的日期)的平均延误时间和每天航班数。数据集是nycflights13,其中包含2013年从纽约出发的航班信息。
请注意,我可以很容易地使用dplyr编写这个:
flights %>%
group_by(month, day) %>%
summarise(count = n(), avg_delay = mean(dep_delay, na.rm = TRUE)) %>%
filter(count > 1000)
sqldf
。您已经花费时间编写查询了。 - Tim Biegeleisensubset(aggregate(dep_delay ~ month + day, flights, function(x) data.frame(count=length(x), avg_delay=mean(x,na.rm=TRUE))), count>1000)
- moodymudskipper