在Python中进行加权高斯核密度估计

Question

在Python中进行加权高斯核密度估计

pythonstatisticsscipykernel-density

15

更新: 现在scipy.stats.gaussian_kde支持加权样本。详情请查看这里和这里。

目前不支持使用scipy.stats.gaussian_kde基于加权样本估计连续随机变量的密度。有哪些方法可用于基于加权样本估计连续随机变量的密度？

- Till Hoffmann

2

截至scipy版本1.2，sp.stats.gaussian_kde中似乎有一个“weights”选项，它似乎可以实现您现在想要的功能。 - wmsmith

3个回答

2

针对一元分布，您可以使用statsmodels中的KDEUnivariate。它的文档不是很全面，但是fit方法接受weights参数。这时您不能使用FFT。以下是一个示例：

import matplotlib.pyplot as plt
from statsmodels.nonparametric.kde import KDEUnivariate

kde1= KDEUnivariate(np.array([10.,10.,10.,5.]))
kde1.fit(bw=0.5)
plt.plot(kde1.support, [kde1.evaluate(xi) for xi in kde1.support],'x-')

kde1= KDEUnivariate(np.array([10.,5.]))
kde1.fit(weights=np.array([3.,1.]), 
         bw=0.5,
         fft=False)
plt.plot(kde1.support, [kde1.evaluate(xi) for xi in kde1.support], 'o-')

这会生成以下图像：

- Ramon Crehuet

1

请查看PyQT-Fit和Python的统计包。它们似乎具有使用加权观测值的核密度估计功能。

- dikdirk

请注意，从1.3.4版本开始，PyQT-Fit仅支持一维核密度估计。 - lapis

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Till Hoffmann · Accepted Answer

sklearn.neighbors.KernelDensity和 statsmodels.nonparametric 都似乎不支持加权样本。我修改了 scipy.stats.gaussian_kde 以允许异构采样权重，并认为这些结果可能对其他人有用。下面是一个示例。

example

ipython笔记本可以在此处找到：http://nbviewer.ipython.org/gist/tillahoffmann/f844bce2ec264c1c8cb5

实现细节

加权算术平均值为

weighted arithmetic mean

然后给出无偏数据协方差矩阵： unbiased covariance matrix

带宽可以使用 scipy 中的 scott 或 silverman 规则选择。但是，用于计算带宽的样本数量是 Kish 的有效样本大小的近似公式。