I have this dataframe df
:
U,Datetime
01,2015-01-01 20:00:00
01,2015-02-01 20:05:00
01,2015-04-01 21:00:00
01,2015-05-01 22:00:00
01,2015-07-01 22:05:00
02,2015-08-01 20:00:00
02,2015-09-01 21:00:00
02,2014-01-01 23:00:00
02,2014-02-01 22:05:00
02,2015-01-01 20:00:00
02,2014-03-01 21:00:00
03,2015-10-01 20:00:00
03,2015-11-01 21:00:00
03,2015-12-01 23:00:00
03,2015-01-01 22:05:00
03,2015-02-01 20:00:00
03,2015-05-01 21:00:00
03,2014-01-01 20:00:00
03,2014-02-01 21:00:00
由 U
和一个 Datetime
对象创建。我想要做的是过滤掉在月份/年份中至少连续出现三次的 U
值。到目前为止,我已经按照 U
、year
和 month
进行了分组:
m = df.groupby(['U',df.index.year,df.index.month]).size()
获取:
U
1 2015 1 1
2 1
4 1
5 1
7 1
2 2014 1 1
2 1
3 1
2015 1 1
8 1
9 1
3 2014 1 1
2 1
2015 1 1
2 1
5 1
10 1
11 1
12 1
第三列与不同月/年的事件有关。 在这种情况下,只有02
和03
的U
值包含至少三个连续值在月/年中。现在我无法弄清楚如何选择那些用户并将他们列在一个列表中,或者只是将它们保留在原始数据框df
中并丢弃其他用户。 我也尝试过:
g = m.groupby(level=[0,1]).diff()
但是我无法获取任何有用的信息。
u = m.unstack('U')
开始取得了一些进展。这里的诀窍是月份和年份不能包含间隔。然后,((u == u.shift(-1)) & (u == u.shift(-2))).any()
将告诉您哪些值具有三个连续的月份。 - Alexander