在pandas中使用value_counts()添加列

5

我有一个名为output的数据帧,其外观如下:

   created_at
0  1/8/2017 0:00
1  1/8/2017 0:00
2  1/8/2017 0:00
3  1/8/2017 0:00
4  1/8/2017 0:00
5  1/8/2017 1:00
6  1/8/2017 2:00
7  1/8/2017 3:00

我想要计算数据框 df3 中特定时间出现的次数。结果如下:
1/8/2017 0:00    5
1/8/2017 1:00    1
1/8/2017 3:00    1
1/8/2017 2:00    1

我希望的是在df3中添加两个标题,分别为 created_atcount
我首先做的是从输出数据框中删除重复项并对值进行排序,得到以下结果:
   created_at
0  1/8/2017 0:00
5  1/8/2017 1:00
6  1/8/2017 2:00
7  1/8/2017 3:00

现在我在输出数据框中添加了列count,但是我得到的结果如下:

   created_at        count
0  1/8/2017 0:00     NaN
5  1/8/2017 1:00     NaN
6  1/8/2017 2:00     NaN
7  1/8/2017 3:00     NaN

我想要实现的是一个名为result的数据框,它应该长这个样子:
   created_at        count
0  1/8/2017 0:00     5
5  1/8/2017 1:00     1
6  1/8/2017 2:00     1
7  1/8/2017 3:00     1

我该如何做呢?我的代码如下:
import pandas as pd

df1 = pd.read_csv(path1)
df2 = pd.read_csv(path2)
output = pd.merge(df1, df2, how="inner", on="created_at")
df3 = output.created_at.value_counts()

output = output.drop_duplicates()
output = output.sort_values(by=['created_at'])
output['count'] = df3


print(output,'\n\n')

非常感谢您的帮助,所有的帮助都将不胜感激。

谢谢


结果 df 不是我拥有的,而是我期望的输出 - Stevi G
1个回答

5

在调用value_counts之后,使用rename_axisreset_index

df.created_at.value_counts().rename_axis('created_at').reset_index(name='count')

      created_at  count
0  1/8/2017 0:00      5
1  1/8/2017 2:00      1
2  1/8/2017 1:00      1
3  1/8/2017 3:00      1

或者,使用 groupby + agg

df.groupby('created_at').created_at.agg([('count', 'count')]).reset_index()

      created_at  count
0  1/8/2017 0:00      5
1  1/8/2017 1:00      1
2  1/8/2017 2:00      1
3  1/8/2017 3:00      1

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接