我正在尝试创建自定义的DataFrame.describe()函数,该函数将返回以下内容:
- numpy统计信息
- scipy统计信息
- 某些来源的分位数
# Python 3.6.6, Pandas 0.22.0
import pandas as pd
import numpy as np
import scipy.stats as sc
d = pd.DataFrame(np.random.randint(0,10, size=100000))
d.apply(np.mean) #Works
d.apply(np.std) #Works
d.apply(sc.kurtosis) #Works
d.apply([np.mean, np.std]) #Works
d.apply([np.mean, sc.kurtosis]) # Gets stuck
如果我使用scipy函数,它会无限运行,但如果我只使用numpy,它会非常快速地完成。如果有更好的方法来模拟pd.DataFrame.describe()的输出,并使用自己定制的统计输出列表,我也可以接受。
sc.stats.kurtosis
吗?另外,Pandas 的版本是多少?据我所知,pd.DataFrame.apply
不接受函数列表。 - jppapply
的问题,但我们知道 通常情况下,即使在倒数第二个情况下,apply
也很慢。 - jpp