我有一个数据集,其中包含多个日期字段,包括小时。我想使用其中一个作为我的数据框索引,并计算每天创建的条目数。换句话说,如果我有:
Date | Several features
2020-02-08 10h00 | ...
2020-02-08 11h00 | ...
2020-02-10 10h00 | ...
2020-02-10 11h00 | ...
2020-02-10 13h00 | ...
我想获得:
2020-02-08 | 2
2020-02-10 | 3
为此,我正在做:
df["datetime"] = pd.to_datetime(df["datetime"])
df = df.set_index('datetime')
df.resample('D')["id"].count()
这里的id
是每个条目都有的唯一标识符。
然而,我得到了以下输出:
2020-02-08 | 2
2020-02-09 | 0
2020-02-10 | 3
我该如何删除“2020-02-09”这一行?我只想统计数据集中已有的日期,而不是没有的日期。
groupby
和count()
或size()
就可以得到答案。 - Mayank Porwal