SciPy中使用截断正态分布进行混合模型拟合(双峰?)。Python 3

3
我试图按照这个示例进行操作,但似乎无法适应我的数据集,因为我需要截断正态分布: https://dev59.com/mVsV5IYBdhLWcg3wpQF8= 我的数据集肯定是两个被截断的正态分布的混合物。域中的最小值为0,最大值为1。我想创建一个对象,以优化参数并获取从该分布中绘制一系列数字的可能性。一种选择可能是只使用KDE模型,并使用pdf来获取可能性。然而,我想要两个分布的确切均值和标准差。我猜我可以将数据分成两半,然后分别对两个正态分布进行建模,但我也想学习如何在SciPy中使用optimize。我刚开始尝试这种统计分析,如果这看起来很幼稚,请谅解。
我不确定如何以这种方式获得一个pdf,它可以积分为1,并且其定义域被限制在0到1之间。
import requests
from ast import literal_eval
from scipy import optimize, stats
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np


# Actual Data
u = np.asarray(literal_eval(requests.get("https://pastebin.com/raw/hP5VJ9vr").text))
# u.size ==> 6000
u.min(), u.max()
# (1.3628525454666037e-08, 0.99973136607553781)

# Distribution
with plt.style.context("seaborn-white"):
    fig, ax = plt.subplots()
    sns.kdeplot(u, color="black", ax=ax)
    ax.axvline(0, linestyle=":", color="red")
    ax.axvline(1, linestyle=":", color="red")
kde = stats.gaussian_kde(u)

enter image description here

# KDE Model
def truncated_gaussian_lower(x,mu,sigma,A):
    return np.clip(A*np.exp(-(x-mu)**2/2/sigma**2), a_min=0, a_max=None)
def truncated_gaussian_upper(x,mu,sigma,A):
    return np.clip(A*np.exp(-(x-mu)**2/2/sigma**2), a_min=None, a_max=1)
def mixture_model(x,mu1,sigma1,A1,mu2,sigma2,A2):
    return truncated_gaussian_lower(x,mu1,sigma1,A1) + truncated_gaussian_upper(x,mu2,sigma2,A2)
kde = stats.gaussian_kde(u)

# Estimates: mu sigma A
estimates= [0.1, 1, 3, 
            0.9, 1, 1]
params,cov= optimize.curve_fit(mixture_model,u,kde.pdf(u),estimates )

# ---------------------------------------------------------------------------
# RuntimeError                              Traceback (most recent call last)
# <ipython-input-265-b2efb2ca0e0a> in <module>()
#      32 estimates= [0.1, 1, 3, 
#      33             0.9, 1, 1]
# ---> 34 params,cov= optimize.curve_fit(mixture_model,u,kde.pdf(u),estimates )

# /Users/mu/anaconda/lib/python3.6/site-packages/scipy/optimize/minpack.py in curve_fit(f, xdata, ydata, p0, sigma, absolute_sigma, check_finite, bounds, method, jac, **kwargs)
#     738         cost = np.sum(infodict['fvec'] ** 2)
#     739         if ier not in [1, 2, 3, 4]:
# --> 740             raise RuntimeError("Optimal parameters not found: " + errmsg)
#     741     else:
#     742         # Rename maxfev (leastsq) to max_nfev (least_squares), if specified.

# RuntimeError: Optimal parameters not found: Number of calls to function has reached maxfev = 1400.

回应@Uvar下面非常有帮助的解释。我正在尝试测试从0到1的积分是否等于1,但我得到的是0.3。我认为我的逻辑中缺少了一个关键步骤:

# KDE Model
def truncated_gaussian(x,mu,sigma,A):
    return A*np.exp(-(x-mu)**2/2/sigma**2)

def mixture_model(x,mu1,sigma1,A1,mu2,sigma2,A2):
    if type(x) == np.ndarray:
        norm_probas = truncated_gaussian(x,mu1,sigma1,A1) + truncated_gaussian(x,mu2,sigma2,A2)
        mask_lower = x < 0
        mask_upper = x > 1
        mask_floor = (mask_lower.astype(int) + mask_upper.astype(int)) > 1
        norm_probas[mask_floor] = 0
        return norm_probas
    else:
        if (x < 0) or (x > 1):
            return 0
        return truncated_gaussian_lower(x,mu1,sigma1,A1) + truncated_gaussian_upper(x,mu2,sigma2,A2)

kde = stats.gaussian_kde(u, bw_method=2e-2)

# # Estimates: mu sigma A
estimates= [0.1, 1, 3, 
            0.9, 1, 1]
params,cov= optimize.curve_fit(mixture_model,u,kde.pdf(u)/integrate.quad(kde, 0 , 1)[0],estimates ,maxfev=5000)
# params
# array([  9.89751700e-01,   1.92831695e-02,   7.84324114e+00,
#          3.73623345e-03,   1.07754038e-02,   3.79238972e+01])

# Test the integral from 0 - 1
x = np.linspace(0,1,1000)
with plt.style.context("seaborn-white"):
    fig, ax = plt.subplots()
    ax.plot(x, kde(x), color="black", label="Data")
    ax.plot(x, mixture_model(x, *params), color="red", label="Model")
    ax.legend()
# Integrating from 0 to 1
integrate.quad(lambda x: mixture_model(x, *params), 0,1)[0]
# 0.3026863969781809

enter image description here


我正在寻找一种方法来获取一个自定义的scipy分布,其中pdf积分为1,并且在0到1之间有2个峰值;一个在0附近(具有更高的密度),另一个在1附近(具有较低的密度)。 - O.rka
1个回答

3

看起来您的拟合过程出现了错误。 您试图拟合 kde.pdf(u),同时对半边界进行约束。

foo = kde.pdf(u)

min(foo)
Out[329]: 0.22903365654960098

max(foo)
Out[330]: 4.0119283429320332

正如您所看到的,u的概率密度函数并不限制在[0,1]之间。因此,仅删除剪辑操作将导致精确拟合。

def truncated_gaussian_lower(x,mu,sigma,A):
    return A*np.exp((-(x-mu)**2)/(2*sigma**2))
def truncated_gaussian_upper(x,mu,sigma,A):
    return A * np.exp((-(x-mu)**2)/(2*sigma**2))
def mixture_model(x,mu1,sigma1,A1,mu2,sigma2,A2):
    return truncated_gaussian_lower(x,mu1,sigma1,A1) + truncated_gaussian_upper(x,mu2,sigma2,A2)

estimates= [0.15, 1, 3, 
            0.95, 1, 1]
params,cov= optimize.curve_fit(f=mixture_model, xdata=u, ydata=kde.pdf(u), p0=estimates)

params
Out[327]: 
array([ 0.00672248,  0.07462657,  4.01188383,  0.98006841,  0.07654998,
        1.30569665])

y3 = mixture_model(u, params[0], params[1], params[2], params[3], params[4], params[5])

plt.plot(kde.pdf(u)+0.1) #add offset for visual inspection purpose

plt.plot(y3)

通过+0.1偏移量使完美重叠可见

那么,现在我改变了所要绘制的内容:

plt.figure(); plt.plot(u,y3,'.')

这看起来就像你试图实现的样子

事实上,:

np.allclose(y3, kde(u), atol=1e-2)
>>True

你可以稍微修改混合模型,使其在区间[0,1]之外的值为0:
def mixture_model(x,mu1,sigma1,A1,mu2,sigma2,A2):
    if (x < 0) or (x > 1):
        return 0
    return truncated_gaussian_lower(x,mu1,sigma1,A1) + truncated_gaussian_upper(x,mu2,sigma2,A2)

然而这样做会失去立即在x数组上评估函数的选项... 所以为了论证,我现在将其排除。

无论如何,我们希望我们的积分在区间[0,1]内总和为1,一种方法是(随意尝试修改stats.gaussian_kde中的带宽估计器)将概率密度估计值除以其在该区间上的积分。请注意,在此实现中,optimize.curve_fit只进行了1400次迭代,因此初始参数估计很重要。

from scipy import integrate
sum_prob = integrate.quad(kde, 0 , 1)[0]
y = kde(u)/sum_prob
# Estimates: mu sigma A
estimates= [0.15, 1, 5, 
            0.95, 0.5, 3]
params,cov= optimize.curve_fit(f=mixture_model, xdata=u, ydata=y, p0=estimates)
>>array([  6.72247814e-03,   7.46265651e-02,   7.23699661e+00,
     9.80068414e-01,   7.65499825e-02,   2.35533297e+00])

y3 = mixture_model(np.arange(0,1,0.001), params[0], params[1], params[2], 
    params[3], params[4], params[5])

with plt.style.context("seaborn-white"):
    fig, ax = plt.subplots()
    sns.kdeplot(u, color="black", ax=ax)
    ax.axvline(0, linestyle=":", color="red")
    ax.axvline(1, linestyle=":", color="red")
    plt.plot(np.arange(0,1,0.001), y3) #The red line is now your custom pdf with area-under-curve = 0.998 in the domain..

总体情节

为了检查曲线下面积,我使用了这种hacky的解决方案来重新定义混合模型..:

def mixture_model(x):
    mu1=params[0]; sigma1=params[1]; A1=params[2]; mu2=params[3]; sigma2=params[4]; A2=params[5]
    return truncated_gaussian_lower(x,mu1,sigma1,A1) + truncated_gaussian_upper(x,mu2,sigma2,A2)

from scipy import integrate
integrated_value, error = integrate.quad(mixture_model, 0, 1) #0 lower bound, 1 upper bound
>>(0.9978588016186962, 5.222293368393178e-14)

或者采用第二种方式进行积分:

import sympy
x = sympy.symbols('x', real=True, nonnegative=True)
foo = sympy.integrate(params[2]*sympy.exp((-(x-params[0])**2)/(2*params[1]**2))+params[5]*sympy.exp((-(x-params[3])**2)/(2*params[4]**2)),(x,0,1), manual=True)
foo.doit()

>>0.562981541724715*sqrt(pi) #this evaluates to 0.9978588016186956

实际上,按照您在编辑问题中描述的方式进行操作:

def mixture_model(x,mu1,sigma1,A1,mu2,sigma2,A2):
    return truncated_gaussian_lower(x,mu1,sigma1,A1) + truncated_gaussian_upper(x,mu2,sigma2,A2)
integrate.quad(lambda x: mixture_model(x, *params), 0,1)[0]
>>0.9978588016186962

如果我将我的带宽设置为你的水平(2e-2),确实评估结果降至0.92,比我们之前的0.998更差,但仍与你报告的0.3有显著差异。即使复制你的代码片段,我也无法重现��种情况。你可能在某个地方意外重新定义了函数/变量吗?


谢谢您的回复和解释!让我消化一下,然后再回复您。有一件事让我困惑,那就是一个pdf应该在其域内集成为1,对吗?如果我计算kde.pdf(1.1),我得到的结果是0.37351788。这个值不应该是0吗? - O.rka
原则上来说,这是正确的,但事实上 stats.gaussian_kde 并不是您概率密度函数的精确表示,它是一种估计,严重依赖于带宽参数的选择,并返回一个平滑曲线,该曲线也存在于区间 [0, 1] 之外。实际上,在提供的代码示例中,简单的数值积分将给出总的“面积”为 0.55 - Uvar
如果你想让 mixture_model(1.1, *args) = 0,那么你可以在 mixture_model 中添加一个 if 语句,在目标域之外时返回 0。另一种方法是预先计算 mask = np.where((x < 0) or (x > 1)); y3[mask] = 0 - Uvar
感谢您的编辑。我尝试实现了您上面提供的解决方案,感觉已经接近成功,但在逻辑上还缺少一步。我尝试将“0-1”中的最终解决方案整合起来,但最终得到的值是“0.3”。 - O.rka
@O.rka@ 我又编辑了一次,你贴出来的代码片段在我这里运行良好;可能你实际脚本中存在一些函数/变量的隐藏重新定义? - Uvar
显示剩余5条评论

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接