我有一个看起来像这样的数据框:
我希望做的是对每个uid下的每个
我创建了一个groupby对象,并找到了所有消息的计数:
但我不太确定如何为每个uid计算每种类型的消息。我考虑创建掩码和4个单独的数据框,但这似乎不是一种有效的方法来完成这个任务。
样本数据 - http://www.sharecsv.com/s/16573757eb123c5b15cae4edcb7296e3/sample_data.csv
+---+-----------+----------------+-------+
| | uid | msg | count |
+---+-----------+----------------+-------+
| 0 | 121437681 | eis | 1 |
| 1 | 14403832 | eis | 1 |
| 2 | 190442364 | eis | 1 |
| 3 | 190102625 | eis | 1 |
| 4 | 190428772 | eis_reply | 1 |
| 5 | 190428772 | single_message | 1 |
| 6 | 190428772 | yes | 1 |
| 7 | 190104837 | eis | 1 |
| 8 | 144969454 | eis | 1 |
| 9 | 190738403 | eis | 1 |
+---+-----------+----------------+-------+
我希望做的是对每个uid下的每个
msg
实例进行计数。我创建了一个groupby对象,并找到了所有消息的计数:
grouped_test = test.groupby('uid')
grouped_test.count('msg')
但我不太确定如何为每个uid计算每种类型的消息。我考虑创建掩码和4个单独的数据框,但这似乎不是一种有效的方法来完成这个任务。
样本数据 - http://www.sharecsv.com/s/16573757eb123c5b15cae4edcb7296e3/sample_data.csv