269得票5回答
使用pandas GroupBy.agg()对同一列进行多个聚合操作。

有没有一种内置的 pandas 方法可以对同一列 df["returns"] 应用两个不同的聚合函数 f1, f2,而不必多次调用 agg()? 示例数据框:import pandas as pd import datetime as dt import numpy as ...

49得票5回答
在PySpark中,与Panda的value_counts()相当的是什么?

我正在使用以下Python/Pandas命令:df.groupby('Column_Name').agg(lambda x: x.value_counts().max() 我如何在PySpark中获取一个DataFrameGroupBy对象的所有列的值计数?

48得票2回答
如何在pandas的多重索引上进行分组?

这是我的数据框。我进行了一些转换以创建类别列,并删除了它来源的原始列。现在我需要进行分组操作以去除重复项,例如 Love 和 Fashion 可以通过 groupby 求和合并。df.colunms = array([category, clicks, revenue, date, impre...

46得票6回答
Pandas基于类别的分组,存在冗余的NaN值

我在使用 pandas groupby 处理分类数据时遇到了问题。从理论上讲,它应该非常高效: 您是通过整数进行分组和索引,而不是字符串。但它坚持认为,在按多个类别分组时,必须考虑每种类别的组合。 即使存在较少共同字符串的低密度,有时我也会使用类别,仅因为这些字符串很长,可以节省内存/提高性...

46得票3回答
Pandas,按组计数

我有一个数据框,像这样>>> df = pd.DataFrame({'user_id':['a','a','s','s','s'], 'session':[4,5,4,5,5], 'revenue...

42得票3回答
Pandas的GroupBy.apply方法重复了第一组。

我的第一个 Stack Overflow 问题: 我对 Pandas 中 groupby 方法的 apply 行为感到困惑(版本为 0.12.0-4),它似乎会将函数应用两次于数据框的第一行。例如:>>> from pandas import Series, DataFram...

41得票6回答
Python Pandas:在组内计算移动平均值

我有一个包含100个对象时间序列的数据框:object period value 1 1 24 1 2 67 ... 1 1000 56 2 1 59 2 2 46 ... ...

39得票6回答
如何使用Python和Pandas按月对日期字段进行分组?

我有一个数据框,df,它的结构如下:| date | Revenue | |-----------|---------| | 6/2/2017 | 100 | | 5/23/2017 | 200 | | 5/20/2017 | 300 | | 6/22/20...

34得票3回答
使用pandas groupby多级索引创建箱线图,针对指定的多级子级别。

好的,我有一个包含时间序列数据的数据框,每个列都有一个多行索引。以下是数据样本,并且它以csv格式呈现。在这里加载数据不是问题。 我想做的是能够根据多重索引中特定行的不同类别分组,创建一个箱线图。例如,如果我按“SPECIES”分组,则会在时间序列中的每个特定时间内拥有'aq'、'gr...

33得票3回答
在Pandas中按组大小对分组数据进行排序

我的数据集中有两列,col1和col2。我想按照col1分组,然后按每个组的大小排序。也就是说,我想按照组大小的升序显示分组。 我已经编写了分组和显示数据的代码,如下所示:grouped_data = df.groupby('col1') """code for sorting comes ...