按天重新采样 Pandas 数据框，不填充缺失日期

Question

3

我有一个数据集，其中包含多个日期字段，包括小时。我想使用其中一个作为我的数据框索引，并计算每天创建的条目数。换句话说，如果我有：

Date | Several features
2020-02-08 10h00 | ...
2020-02-08 11h00 | ...
2020-02-10 10h00 | ...
2020-02-10 11h00 | ...
2020-02-10 13h00 | ...

我想获得：

2020-02-08 | 2
2020-02-10 | 3

为此，我正在做：

df["datetime"] = pd.to_datetime(df["datetime"])
df = df.set_index('datetime')
df.resample('D')["id"].count()

这里的id是每个条目都有的唯一标识符。

然而，我得到了以下输出：

2020-02-08 | 2
2020-02-09 | 0
2020-02-10 | 3

我该如何删除“2020-02-09”这一行？我只想统计数据集中已有的日期，而不是没有的日期。

- Luiscri

在我看来，“resample” 不是必需的。只需要使用 groupby 和 count() 或 size() 就可以得到答案。 - Mayank Porwal

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- jezrael · Accepted Answer

df["datetime"] = pd.to_datetime(df["datetime"])
df = df.groupby(df["datetime"].dt.date)["id"].count()

如果需要在旧版本的pandas中使用DatetimeIndex，可以使用Series.dt.normalize：

df["datetime"] = pd.to_datetime(df["datetime"])
df = df.groupby(df["datetime"].dt.normalize())["id"].count()

在您的解决方案中，如果生成了缺失值，请将其删除：

df["datetime"] = pd.to_datetime(df["datetime"])
df = df.set_index('datetime').resample('D')["id"].count().dropna()

或者删除 0 行：

df["datetime"] = pd.to_datetime(df["datetime"])
df = df.set_index('datetime').resample('D')["id"].count().loc[lambda x: x!= 0]