在Python/pandas中,是否有类似于R中transform和ddply函数的等效函数?

13
在R的ddply函数中,您可以按组计算任何新列,并将结果附加到原始数据框中,例如:
ddply(mtcars, .(cyl), transform, n=length(cyl)) # n is appended to the df

在Python/pandas中,我先计算了它,然后再合并,例如:

df1 = mtcars.groupby("cyl").apply(lambda x: Series(x["cyl"].count(), index=["n"])).reset_index()
mtcars = pd.merge(mtcars, df1, on=["cyl"])

或者类似的东西。

然而,我总觉得这样做相当令人望而生畏,那么一次完成所有工作是否可行?

谢谢。

1个回答

20

通过将groupby/transform操作的结果赋值给DataFrame,您可以向DataFrame添加列:

mtcars['n'] = mtcars.groupby("cyl")['cyl'].transform('count')

import pandas as pd
import pandas.rpy.common as com

mtcars = com.load_data('mtcars')
mtcars['n'] = mtcars.groupby("cyl")['cyl'].transform('count')
print(mtcars.head())
产生(yields)
                    mpg  cyl  disp   hp  drat     wt   qsec  vs  am  gear  carb   n
Mazda RX4          21.0    6   160  110  3.90  2.620  16.46   0   1     4     4   7
Mazda RX4 Wag      21.0    6   160  110  3.90  2.875  17.02   0   1     4     4   7
Datsun 710         22.8    4   108   93  3.85  2.320  18.61   1   1     4     1  11
Hornet 4 Drive     21.4    6   258  110  3.08  3.215  19.44   1   0     3     1   7
Hornet Sportabout  18.7    8   360  175  3.15  3.440  17.02   0   0     3     2  14
为了添加多列,您可以使用groupby/apply。确保您应用的函数返回一个与其输入具有相同索引的DataFrame。例如,
mtcars[['n','total_wt']] = mtcars.groupby("cyl").apply(
    lambda x: pd.DataFrame({'n': len(x['cyl']), 'total_wt': x['wt'].sum()},
                           index=x.index))
print(mtcars.head())
产生(yields)。
                    mpg  cyl  disp   hp  drat     wt   qsec  vs  am  gear  carb   n  total_wt
Mazda RX4          21.0    6   160  110  3.90  2.620  16.46   0   1     4     4   7    21.820
Mazda RX4 Wag      21.0    6   160  110  3.90  2.875  17.02   0   1     4     4   7    21.820
Datsun 710         22.8    4   108   93  3.85  2.320  18.61   1   1     4     1  11    25.143
Hornet 4 Drive     21.4    6   258  110  3.08  3.215  19.44   1   0     3     1   7    21.820
Hornet Sportabout  18.7    8   360  175  3.15  3.440  17.02   0   0     3     2  14    55.989

太棒了!那么我再问一个问题...是否有可能一次计算多列,例如ddply(mtcars, .(cyl), transform, n=length(cyl), total_wt=sum(wt)) - Blaszard
语法不像 R 那样简洁,但我已经添加了一个示例来展示如何使用。 - unutbu

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接